InstructGPT: Die versteckte Kraft hinter ChatGPT

Name: Kana Mikami

Published on 6.6.2023

Haben Sie sich jemals vorgestellt, wie künstliche Intelligenz durch menschliches Feedback gesteuert werden könnte, um präzise Anweisungen zu befolgen? Wenn ja, ist Ihre Vorstellungskraft dank InstructGPT zur Realität geworden. Entwickelt von OpenAI, ist dieses Schwestersprachmodell von ChatGPT (auch bekannt als GPT-3.5) darauf ausgerichtet, Sprachmodelle mit Benutzern abzustimmen, um einige der häufigen Einschränkungen großer Sprachmodelle (LLMs) zu überwinden, wie unzutreffende, toxische oder unbrauchbare Ausgaben. Aber wie erreicht InstructGPT diese Leistung? Lassen Sie uns tiefer in seine faszinierenden inneren Arbeitsweisen eintauchen.

Die Funktionsweise von InstructGPT im Detail

InstructGPT verwendet einen dreistufigen Prozess, um sich mit Benutzern abzustimmen: überwachtes Feinabstimmen (SFT), Trainieren des Reward-Modells (RM) und verstärkendes Lernen mittels Proximal Policy Optimization (PPO). Das mag anfangs kompliziert klingen, aber bleiben Sie dran, während wir uns mit jedem dieser Schritte befassen.

Schritt 1: Überwachtes Feinabstimmen (SFT)

Im Mittelpunkt von InstructGPT steht ein vorgeschultes Sprachmodell, GPT-3, das als Ausgangspunkt verwendet wird. Der erste Schritt in diesem revolutionären Prozess besteht darin, Demonstrationdaten zu sammeln und eine überwachte Richtlinie zu trainieren. Einfach ausgedrückt, geben menschliche Kennzeichner Demonstrationen des gewünschten Verhaltens auf der Eingabe-Prompt-Verteilung. Anschließend wird GPT-3 mithilfe dieser Daten mittels überwachtem Lernen feinabgestimmt, um besser in der Lage zu sein, menschliche Antworten nachzuahmen.

Schritt 2: Trainieren des Reward-Modells (RM)

Mit dem feinabgestimmten GPT-3-Modell geht der Prozess zum zweiten Schritt über: das Trainieren des Reward-Modells. Dabei werden Vergleichsdaten gesammelt, und die Kennzeichner geben ihre bevorzugte Ausgabe für jede gegebene Eingabe an. Ein Reward-Modell wird dann trainiert, um diese vom Menschen bevorzugte Ausgabe vorherzusagen und das Verständnis des Modells für qualitativ hochwertige Antworten weiter zu verbessern.

Schritt 3: Verstärkendes Lernen mittels Proximal Policy Optimization (PPO)

Schließlich wird die feinabgestimmte Richtlinie mit Hilfe des Reward-Modells und einer Methode namens Proximal Policy Optimization (PPO) optimiert. Dabei wird die Ausgabe des Reward-Modells als skalare Belohnung verwendet. PPO ermöglicht es InstructGPT, seine Ausgaben basierend auf vorherigem Lernen zu optimieren und sich kontinuierlich zu verbessern.

Die Kraft der Iteration

Was InstructGPT wirklich bemerkenswert macht, ist sein iterativer Prozess. Die Schritte 2 und 3 - das Trainieren des Reward-Modells und das verstärkende Lernen - können kontinuierlich wiederholt werden. Mit zunehmender Sammlung von Vergleichsdaten wird ein neues Reward-Modell trainiert und anschließend eine neue Richtlinie optimiert. Durch diese kontinuierliche Iteration ist InstructGPT äußerst vielseitig und anpassungsfähig, lernt immer dazu und verbessert sich ständig anhand neuer Daten.

Generierung von Datensätzen: Der Treibstoff für InstructGPT

InstructGPT wird von einem Anweisungsdatensatz angetrieben, der hauptsächlich aus Textanweisungen besteht, die an die OpenAI API übermittelt werden. Diese Anweisungen fallen größtenteils in den Bereich der generativen Anwendungen und bieten eine Vielzahl von Szenarien, aus denen das Modell lernen kann.

Dieser iterative, rückkopplungsbasierte Lernprozess verleiht InstructGPT eine einzigartige Fähigkeit zur Verbesserung seiner Antworten im Laufe der Zeit, wobei seine Ausgabe kontinuierlich mit den menschlichen Erwartungen abgestimmt wird. Und obwohl es eine aufregende Entwicklung im Bereich der KI ist, ist es auch das Ergebnis erheblicher Anstrengungen eines Teams engagierter Fachleute. Etwa 40 Auftragnehmer wurden rekrutiert, um Demonstrationen und Vergleichsdaten zu erstellen sowie die Leistung des Modells zu bewerten.

Nun kennen Sie einiges über die innere Arbeitsweise von InstructGPT und seinen iterativen Trainingsprozess. Im nächsten Abschnitt werden wir sehen, wie dieses Modell abschneidet und wie es sich gegenüber seinem Vorgänger, GPT-3, behauptet.

InstructGPT Vs. GPT-3: Eine vergleichende Analyse

Um die Genialität von InstructGPT wirklich zu schätzen, ist es wichtig, seine Leistung mit seinem Vorgänger, GPT-3, zu vergleichen. Schauen wir uns an, wie sich InstructGPT in mehreren wichtigen Bereichen im Vergleich zu GPT-3 behauptet.

Verbessertes Kontextverständnis

Eine der signifikantesten Verbesserungen, die bei InstructGPT zu erkennen sind, ist sein Kontextverständnis. Im Vergleich zu GPT-3 liefert InstructGPT Ausgaben, die in Bezug auf den Kontext angemessener sind und die explizite Einschränkungen in der Anweisung, wie beispielsweise "Schreiben Sie Ihre Antwort in höchstens zwei Absätzen", besser einhalten.

Bessere Zuverlässigkeit und Kontrolle

InstructGPT hat sich als zuverlässiger und einfacher zu kontrollieren als GPT-3 erwiesen. Die Wahrscheinlichkeit, dass es von der beabsichtigten Anweisung abweicht oder falsche Fakten erzeugt, die in geschlossenen Aufgabenbereichen als "Halluzinationen" bezeichnet werden, ist verringert.

Bessere Wahrhaftigkeit und Toxicity-Kontrolle

InstructGPT hat auch Verbesserungen im Bereich der Wahrhaftigkeit und Toxizitätskontrolle gezeigt. Laut Bewertungen des TruthfulQA-Datensatzes sind InstructGPT-Modelle wahrhafter als ihre GPT-3-Pendants. Darüber hinaus erzeugen InstructGPT-Modelle bei der Anweisung, sicheres und respektvolles Output zu produzieren, laut der Perspective API weniger toxische Ausgaben als GPT-3. Allerdings läuft nicht alles reibungslos. InstructGPT macht immer noch Fehler. Zum Beispiel kann es fälschlicherweise eine falsche Annahme für wahr halten oder seine Antworten übermäßig einschränken. Diese kleinen Schwächen erinnern uns daran, dass KI zwar große Fortschritte gemacht hat, aber nicht perfekt ist und kontinuierliche Verbesserungen erforderlich sind.

Abschließend lässt sich sagen, dass InstructGPT gegenüber GPT-3 zahlreiche Vorteile bietet und seine Entwicklung ein Beweis für die Kraft des menschlichen Feedbacks bei der Verbesserung von KI-Modellen ist. Sein iterativer, feedbackgestützter Prozess macht es zu einem vielseitigen und dynamischen Modell, das die Zukunft der KI revolutionieren wird.

FAQ

Nun wollen wir einige häufig gestellte Fragen zu InstructGPT beantworten:

Was ist InstructGPT?

InstructGPT ist ein KI-Modell, das von OpenAI entwickelt wurde. Es verwendet einen einzigartigen dreistufigen Prozess, bestehend aus überwachtem Feintuning (SFT), Training des Reward-Modells (RM) und verstärkendem Lernen über proximale Polizyoptimierung (PPO), um seine Fähigkeit zur Befolgung von Anweisungen zu verbessern.

Wie unterscheidet sich InstructGPT von GPT-3?

InstructGPT zeigt signifikante Verbesserungen gegenüber GPT-3 in mehreren Bereichen. Dazu gehören besseres kontextuelles Verständnis, verbesserte Zuverlässigkeit und Kontrolle sowie erweiterte Wahrheits- und Toxizitätskontrolle.

Macht InstructGPT Fehler?

Ja, InstructGPT macht wie jedes KI-Modell Fehler. Es ist jedoch darauf ausgelegt, aus diesen Fehlern zu lernen und seine Leistung kontinuierlich zu verbessern.

InstructGPT: Die versteckte Kraft hinter ChatGPT InternGPT: Expanding Interactions with ChatGPT Beyond Pointing