InstructGPT: ChatGPTの裏にある隠された力

Name: Kana Mikami

Published on 2023/6/6

人工知能が人間のフィードバックに従って指示に従うことができる世界を想像したことがありますか？もしそうなら、あなたの想像力が現実になったのは、InstructGPTのおかげです。 OpenAIによって開発されたこのChatGPTの兄弟モデル（GPT-3.5とも呼ばれます）は、言語モデルとユーザーを調整して、大規模言語モデル（LLM）によく見られる誤った、有害な、あるいは役に立たない出力など、一般的な限界を克服します。しかし、InstructGPTはどのようにこの偉業を成し遂げたのでしょうか？その魅力的な内部構造について深く掘り下げましょう。

InstructGPTの解説

InstructGPTは、3つのステップでユーザーとの調整を行っています。教示済みファインチューニング（SFT）、報酬モデル（RM）トレーニング、および隣接ポリシー最適化（PPO）を用いた強化学習です。最初は多少難しく聞こえるかもしれませんが、各ステップについて詳しく見ていきましょう。

ステップ1：教示済みファインチューニング（SFT）

InstructGPTの中心には、スタート地点として使用される事前学習された言語モデルGPT-3があります。この革新的なプロセスの最初のステップでは、デモデータの収集と指導ポリシーのトレーニングが行われます。簡単に言うと、人間のラベラーが入力プロンプト分布で望ましい動作のデモンストレーションを提供します。次に、このデータを用いてGPT-3を教示学習で細かく調整することで、人間の回答を模倣する能力が向上します。

ステップ2：報酬モデル（RM）トレーニング

ファインチューニングされたGPT-3モデルを使って、このプロセスは2つ目のステップに移ります。ここでは、比較データが収集され、ラベラーは各入力に対して好ましい出力を示します。報酬モデルは、この人間の優先出力を予測するためにトレーニングされ、高品質な回答の理解をさらに洗練させます。

ステップ3：隣接ポリシー最適化（PPO）による強化学習

最後に、ファインチューニングされたポリシーは、隣接ポリシー最適化（PPO）と呼ばれる手法を用いて報酬モデルに対して最適化されます。これは、報酬モデルの出力をスカラー報酬として使用する強化学習の技法です。PPOにより、InstructGPTは、過去の学習に基づいて出力を最適化し、時間とともに常に改善しています。

反復の力

InstructGPTを本当に素晴らしいものにしているのは、反復的なプロセスです。ステップ2とステップ3、報酬モデルトレーニングと強化学習は、継続的に繰り返すことができます。より多くの比較データが収集されるにつれて、新しい報酬モデルがトレーニングされ、その後、新しいポリシーが最適化されます。この継続的な反復により、InstructGPTは非常に柔軟で適応力があり、新しいデータから学び、改善できるようになります。

データセットの生成： InstructGPTの燃料

InstructGPTは主に、OpenAI APIに提出されたテキストプロンプトから構成されるプロンプトデータセットによって動作します。これらのプロンプトは、主に生成用途のもので、モデルが学習するための幅広いシナリオを提供しています。

この反復的なフィードバックに基づいた学習プロセスにより、InstructGPTは、時間をかけて出力を人間の期待に合わせて常に調整するユニークな能力を持っています。AIの分野におけるエキサイティングな発展であると同時に、これは専門家チームの大きな努力の結果でもあります。約40人の契約社員がデモと比較データを作成し、モデルのパフォーマンスを評価しました。

InstructGPTの内部構造と反復的なトレーニングプロセスについて少し学びました。次のセクションでは、このモデルのパフォーマンスと、先代のGPT-3との比較について見ていきましょう。

InstructGPT vs. GPT-3：比較分析

InstructGPTの真の素晴らしさを理解するには、そのパフォーマンスを先代のGPT-3と比較することが必要です。InstructGPTがGPT-3と比較して、いくつかの重要な領域でどのように機能するか考えInstructGPTは、GPT-3よりも信頼性が高く、コントロールが容易であることが示されています。これは、意図した指示からの逸脱や、閉域タスクにおいて「幻覚」と呼ばれる偽の事実を生成する可能性が減少していることを意味します。

より正確な真実性と毒性のコントロール

InstructGPTは、真実性と毒性の両面において改善が見られています。TruthfulQAデータセットの評価によれば、InstructGPTモデルは、GPT-3モデルに比べてより正確です。さらに、安全で尊重された出力を生成するよう指示された場合、Perspective APIによれば、InstructGPTモデルはGPT-3よりも毒性の少ない出力を生成します。

ただし、すべてが順調というわけではありません。InstructGPTはまだ間違いを com 。たとえば、誤った前提を真実と誤解する可能性がある、または回答を過度に修飾する場合があります。これらの小さな問題は、AIが大きく進歩しているにもかかわらず、完全ではなく、持続的な改善が鍵であることを思い出させます。

結論として、InstructGPTがGPT-3に比べ、多数の利点を持つことは明らかですが、その開発はAIモデルを改善するための人間のフィードバックの力を示すものです。イテレーション、人間フィードバック駆動型プロセスにより、汎用性の高いダイナミックなモデルとなり、AIの未来を革新することを約束しています。

FAQ

次に、InstructGPTに関するよくある質問に回答しましょう。

InstructGPTとは何ですか？

InstructGPTは、OpenAIが開発したAIモデルです。教師あり微調整（SFT）、報酬モデル（RM）トレーニング、近接方策最適化（PPO）による強化学習といった、ユニークな3段階のプロセスを使用して、指示に従う能力を向上させています。

InstructGPTはGPT-3とどう違いますか？

InstructGPTは、いくつかの分野でGPT-3に比べて重要な改善を示しています。これには、より優れた文脈理解、改善された信頼性とコントロール、そしてより正確な真実性と毒性のコントロールが含まれます。

InstructGPTはミスをしますか？

はい、InstructGPTはどのAIモデルも同様に完璧ではなく、ミスをすることがあります。ただし、これらのミスから学び、時間の経過とともにパフォーマンスを継続的に改善するよう設計されています。

InstructGPT: ChatGPTの裏にある隠された力 InternGPT: Expanding Interactions with ChatGPT Beyond Pointing