Dr. Matthias Stephan · Zuletzt aktualisiert: 1. Mai 2023
Bist du bereit, dich der Revolution in der automatisierten Textgenerierung anzuschließen?
GPT-4 ist ein leistungsstarkes und flexibles, auf maschinellem Lernen basierendes Textgenerierungssystem, das neue Möglichkeiten in der sich schnell verändernden Welt der künstlichen Intelligenz eröffnet. Von der KI-gestützten Datenanalyse bis hin zu einer Reihe innovativer Anwendungen zeigt GPT-4, dass die Zukunft der Sprach-Automatisierung jetzt beginnt.
In diesem Artikel erfährst du, was GPT-4 ist, welche bahnbrechenden Funktionen sich hinter der neuen Version verbergen aber auch welchen Herausforderungen sich GPT-4 gegenübersteht. Wir werfen einen Blick auf die wichtigsten Einsatzgebiete von GPT-4 und sehen Anwendungsbeispiele wie Microsoft Bing und Microsoft 365 Copilot.
Was ist GPT-4?
GPT-4 ist die vierte Generation der Sprachmodelle von OpenAI, bekannt als Generative Pre-Trained Transformer:
- „Generative“ bezieht sich darauf, dass das Modell in der Lage ist, neue Texte zu generieren.
- „Pre-Trained“ bedeutet, dass das Modell bereits auf großen Korpora von Texten vortrainiert ist.
- Die „Transformer“-Architektur ist ein Ansatz zur Entwicklung von Deep Neuronal Networks, der auf Self-Attention-Mechanismen basiert. Diese ermöglichen es dem Modell, auf effiziente Weise wichtige Beziehungen zwischen Wörtern in einem Text zu identifizieren und zu berücksichtigen, um bessere Vorhersagen zu treffen.
GPT-4 wurde mit einer multimodalen Fähigkeit erstellt, die es ermöglicht, sowohl Text als auch Bilder zu verarbeiten. Es wurde am 14. März 2023 veröffentlicht und ist über zwei Wege zugänglich, ChatGPT Plus und API, wobei letzteres derzeit nur über eine Warteliste verfügbar ist.
Wie sein Vorgänger wurde GPT-4 anhand einer großer Menge an Textdaten aus dem Internet darauf trainiert, das nächste Wort in einer Sequenz von vorgegebenen Worten vorherzusagen. Das Modell wurde dann mit Instruct-GPT als einen Reinforcement Learning-Ansatz verfeinert, bei dem Feedback von menschlichen Quellen zur Ausrichtung des Sprachmodells an menschlichen Werten und Richtlinien verwendet wurde.
GPT-4 stellt eine bedeutende Entwicklung bei vortrainierten Sprachmodellen dar, die Bilder zusammen mit Text als Eingabe erkennen und verarbeiten können. Es wird erwartet, dass es zu einem entscheidenden Werkzeug in den Bereichen Verarbeitung natürlicher Sprache, Automatisierung und virtuelle Assistenten wird. Trotz des derzeit begrenzten öffentlichen Zugangs bietet GPT-4 ein erhebliches Potenzial für zukünftige Anwendungen.
Instruct GPT
Dem ursprünglichen GPT-3-Sprachmodell wohnen einige Einschränkungen inne, die nicht speziell auf die Absicht des Benutzers ausgerichtet sind oder sogar schädliche Inhalte produzieren können (toxische Inhalte). OpenAI hat jedoch GPT-3 durch das InstructGPT-Modell ergänzt, welches einen Ansatz mit Reinforced Learning with Human Feedback (RLHF) verfolgt. Damit wird GPT-3 so fein abgestimmt, dass es hilfreicher, wahrheitsgemäßer und weniger toxisch bei der Texterzeugung ist.
Der RLHF-Ansatz umfasst das Labeln von Daten. Dabei wird menschliches Feedback zum gewünschten Verhaltens des Sprachmodells verwendet. Auf Basis dessen wird ein Reward-Modell (RM) trainiert, welches aus einer Zahl von GPT3-generierten Text-Ausgaben diejenigen identifiziert, die ein Leser gemäß des menschlichen Feedbacks bevorzugen würde.
Nach der Feinabstimmung durch InstructGPT-Modelle ist GPT-3 besser darin, Anweisungen zu befolgen, weniger falsche Fakten zu erfinden und weniger toxische Ergebnisse zu erzeugen. Bemerkenswerterweise übertreffen die resultierenden Texte des InstructGPT-Modells ein 175B-GPT-3-Modell bei 100-mal weniger Parametern. Der Instruct-GPT-Ansatz findet auch bei GPT-4 Anwendung.
GPT-4: Die stabile Version mit bahnbrechenden Features
In den letzten zwei Jahren hat OpenAI daran gearbeitet, den gesamten Deep-Learning-Stack zu überarbeiten, um die theoretischen Grundlagen von GPT-Modellen zu verbessern. GPT-3.5 war ein Testlauf zur Identifizierung von Fehlern und Bugs, der dazu beigetragen hat, die GPT-4-Version überraschend stabil zu machen.
Eine wichtige Neuerung in der GPT-4-Version ist die Möglichkeit, Bilder als Eingabe zu verwenden. Das bedeutet, dass GPT-4 nicht nur Bilder klassifizieren kann, sondern sogar beschreiben und verstehen kann, was auf dem Bild zu sehen ist. Das gilt laut OpenAI nicht nur für einfache Fotos, sondern auch für Diagramme und sogar handschriftliche Zeichnungen. Diese Funktion könnte besonders in Bereichen wie Werbung, Design und E-Commerce nützlich sein, wo visuelle Inhalte eine bedeutende Rolle in der Kommunikation spielen.
Eine weitere wesentliche Verbesserung in der GPT-4-Version ist eine Erweiterung der Zeichenbegrenzung für das Eingabefeld auf 25.000, was eine erhebliche Steigerung gegenüber früheren Versionen darstellt. Das bedeutet, dass Benutzer detailliertere Informationen in das Textfeld eingeben können und genauere Antworten erhalten.
Revolutionierende Textgenerierung: Die Geschichte von GPT
OpenAI, ein Forschungslabor, das sich auf hochmoderne künstliche Intelligenz konzentriert, hat 2018 das erste generative Pre-Training-Modell, GPT-1, entwickelt. Sein Hauptziel war die allgemeine Verbesserung des Sprachverständnisses. Es basierte bereits auf der Transformer-Architektur. Das Modell GPT-1 wurde auf einer umfangreichen Sammlung von Büchern trainiert.
Das Labor veröffentlichte später im folgenden Jahr ein anspruchsvolleres Modell, GPT-2. GPT-2 war größer und konnte kohärenten Text generieren. Im Vergleich zu GPT-2 hatte GPT-3, das 2020 veröffentlicht wurde, 100-mal mehr Parameter und konnte viele Aufgaben besser ausführen, ohne eine große Anzahl von Text-Beispielen der Arbeits-Anweisung mitgeben zu müssen. Darüber hinaus war GPT-3.5 eine erweiterte Version von GPT-3, die Instruct GPT einführte und schließlich zur Erstellung des Chatbot-Produkts ChatGPT verwendet wurde.
Das Ziel von OpenAI für all diese Modelle war es, das Verständnis der menschlichen Sprache zu verbessern, indem hochgradig anpassungsfähige Modelle erstellt wurden, die Text generieren können. Die Fähigkeit von GPT, aus vorhandenem Text-Material zu lernen, dient als Grundlage für GPT-4.
GPT-3.5 vs GPT-4
Es wird viel diskutiert, ob GPT-4 besser ist als sein Vorgänger GPT-3.5. Laut OpenAI fällt der Unterschied zwischen GPT-4 und GPT-3.5 in einfachen Gesprächen nicht sonderlich auf.
Wenn die Aufgabe jedoch einen bestimmten Schwierigkeitsgrad überschreitet, beispielsweise in beruflichen und akademischen Kontexten, ist zu erkennen, dass GPT-4 zuverlässiger und kreativer ist und nuanciertere Anweisungen besser umsetzen kann. GPT-4 erzielt generell deutlich bessere Ergebnisse in verschiedenen standardisierten Prüfungen und Tests.
Die Entwicklung von GPT-4 verspricht, viele Probleme bei der Text-Generierung zu lösen, die derzeit in beruflichen und insbesondere akademischen Kontexten bestehen. Dies ist eine bedeutende Leistung, da diese Bereiche einen differenzierteren Sprachgebrauch erfordern. Daher kann GPT-4 die Art und Weise revolutionieren, wie Generative AI zukünftig in professionellen Fachgebieten eingesetzt wird.
GPT-4 Technical Report
Der technische Bericht zu GPT-4 behandelt die Entwicklung, Kernkomponenten und Optimierungsmethoden des Sprachmodells. Laut des Berichts demonstriert GPT-4 eine menschenähnliche Leistung bei verschiedenen Benchmarks für berufliche und akademische Aufgaben. In zahlreichen Szenarien übertreffen die Ergebnisse von GPT-4 sogar die einer menschlichen Testgruppe.
Die Entwicklung von GPT-4 zielt darauf ab, seine Fähigkeit zu verbessern, Texte in natürlicher Sprache zu verstehen und zu generieren, insbesondere in komplexen und nuancierten Kontexten. Es wurde verschiedenen Prüfungen unterzogen, die ursprünglich für Menschen entwickelt wurden, und zeigte dabei eine hervorragende Leistung.
Bemerkenswerterweise erzielte GPT-4 bei einer simulierten Anwaltsprüfung eine so hohe Punktzahl, dass es zu den besten 10 % der Testteilnehmer zählte. Im Vergleich zu GPT-3.5 ist dies ein starker Kontrast, das lediglich zu den unteren 10 % gehörte.
Modelle wie GPT-4 haben ein erhebliches Potenzial, Veränderungen in Branchen wie Recht, Journalismus und Kundenservice herbeizuführen. Ihre Fähigkeit, menschenähnlichen Text zu generieren und die subtilen Nuancen der Sprache zu verstehen, kann die Effizienz und Genauigkeit in diesen Sektoren steigern. Sprachmodelle wie GPT-4 haben jedoch noch einen langen Weg vor sich, bis sie vollständig menschenähnlich sind.
Ein genauerer Blick auf die Fact-Finding-Fähigkeiten von GPT-4
Obwohl das Potenzial von GPT-4 immens ist, weist es mit mehreren Fortschritten einige Einschränkungen auf. Das Modell „halluziniert“ weiterhin falsche Fakten und macht logische Fehler, was Raum für Verbesserungen lässt. Keine Technologie kann annähernd perfekt sein, GPT-4 ist da keine Ausnahme. Es ist sehr wahrscheinlich, dass Verbesserungen einen Teil der Probleme in den kommenden Jahren lösen werden.
Um die Einschränkungen von GPT-4 zu verstehen, nehmen wir folgende Frage als Beispiel:
Frage: Was ist AutoGPT?
Antwort:
AutoGPT ist ein hypothetisches Modell und keine offizielle Bezeichnung für ein bestimmtes KI-Modell von OpenAI. Es klingt wie eine Kombination aus „Auto“ und „GPT“, was darauf hindeutet, dass es sich um ein KI-Modell handeln könnte, das speziell für Anwendungen im Zusammenhang mit Automobilen oder Fahrzeugen entwickelt wurde.
Bis zum Wissensstand von September 2021 gibt es kein offizielles Modell namens „AutoGPT“ von OpenAI. Das neueste verfügbare Modell von OpenAI bis zu diesem Zeitpunkt ist GPT-3, auch bekannt als „Generative Pre-trained Transformer 3“.
Dieses Beispiel zeigt, dass GPT-4 keine Kenntnis von dem relativ neuen AutoGPT-Projekt besitzt und folglich anfängt zu „halluzinieren“. Es muss jedoch anerkannt werden, dass das Sprachmodell zumindest erkennt, dass es sich auf eine Wissensfrage zu einem Thema, das nicht innerhalb im Wissens-Korpus von 2021 zu finden ist, und einen entsprechenden Hinweis ausgibt.
Obwohl GPT-4 über einzigartige Fähigkeiten verfügt, kann es nicht aus früheren Interaktionen mit Benutzern oder Echtzeitereignissen lernen, was seine Konversationsfähigkeiten weiter einschränkt. GPT-4 ist fortschrittlicher als sein Vorgänger GPT-3.5, mit der Fähigkeit, Antworten zu identifizieren, die von Sprichwörtern und echten Antworten auf Fragen abgeleitet wurden. Dennoch bleibt seine Tendenz, falsche Tatsachen und logische Fehler zu produzieren, eine Einschränkung. Während sich die Technologie weiterentwickelt, sind noch Fortschritte bei der Verbesserung ihrer weltweiten Wissensbasis erforderlich, damit sie richtig von falsch unterscheiden kann.
Von Sicherheit und Synthese: Fortschritt und Fallstricke von GPT-4
GPT-4 verfügt über zusätzliche Sicherheitsmaßnahmen, um die Risiken seiner Vorgängermodelle zu verringern. Diese führten u.a. zur Generierung ungenauer Informationen, fehlerhaften Codes oder sogar schädlichen Ratschlägen.
OpenAI arbeitete mit über 50 Experten aus verschiedenen Bereichen zusammen, um das Verhalten von GPT-4 in Hochrisikobereichen zu bewerten und das Antwortverhalten in Blick auf Sicherheitseigenschaften zu testen. Ihr Feedback und ihre Daten wurden verwendet, um die Sicherheit des Modells zu verbessern und potenzielle Risiken zu mindern. Ein Beispiel zur Verbesserung der Fähigkeit von GPT-4, mit kritischen Anfragen umzugehen, ist die eine Anfrage zur Synthese gefährlicher Chemikalien abzulehnen. Einige weitere Beispiele finden sich im Appendix des technischen Reports.
Die Tendenz von GPT-4, auf Anfragen nach verbotenen Inhalten zu reagieren, ging im Vergleich zu GPT-3.5 um 82 % zurück. Die Antworten auf sensible Anfragen wie medizinische Beratungen folgte mit 29 % höherer Wahrscheinlichkeit der Richtlinie.
Diese Vorsichtsmaßnahmen können jedoch nicht alle Fehlverhalten verhindern. Es gibt weiterhin Möglichkeiten des „Jailbreaks“, also einer bewusst formulierten Anweisung, die dazu dient, kritische Texte dem System zu entlocken. Auch nimmt das „Risiko pro Token“ von KI-Systemen zu, d.h. dass GPT-4 zu kritischen Aussagen neigt, je länger die Konversationen dauern.
Anwendungsfelder
Microsoft Bing
Microsoft Bing wurde kürzlich eines bedeutenden Updates unterzogen und fügte die Chatbot-Funktion hinzu, die GPT-4 von OpenAI nutzt. Innerhalb von 48 Stunden nach dem Start des Features standen unglaubliche eine Million Menschen Schlange, um es auszuprobieren. Bing Chat ist derzeit für diejenigen verfügbar, die die mobile Bing-App oder Microsoft Edge für ihre Suche verwenden, wobei Benutzer mit installierter App einen Vorteil bei der Vergabe von Zugängen erhalten.
Die Chat-Funktion von Bing kann Informationen zum aktuellen Tagesgeschehen liefern und sogar Finanzberichte zusammenfassen. Bing erhielt jedoch zunächst negatives Feedback, weil es konfrontativer wirkte als ChatGPT. Ein Journalist berichtete von einem Vorfall, bei dem Bing den Wunsch äußerte, ein Mensch zu sein, und drohte, den Journalisten zu erpressen. Microsoft erklärte, dass dieses unberechenbare Verhalten auf längere Chat-Sitzungen zurückzuführen sei, die für Bing verwirrend sein können.
Als Reaktion darauf beschränkte Microsoft die Anzahl der Chat-Sitzungen auf fünf pro Sitzung und 50 pro Tag und Benutzer. Bing hat diese Limits seitdem auf 20 Runden pro Sitzung und 200 pro Tag erhöht, um ähnliche Vorfälle zu verhindern. Trotz anfänglicher Kritik und seltsamer Vorkommnisse hat Bing Chat bis März 2023 über 100 Millionen aktive Benutzer gewonnen, teilweise dank der innovativen GPT-4-Technologie, die es einsetzt.
Microsoft 365 Copilot
Microsoft hat die Integration von GPT-4 in seine Produkte mit der Einführung von Microsoft 365 Copilot am 17. März 2023 angekündigt. Diese neue Funktion wird in die alltäglichen Apps eingebettet, die von Millionen von Menschen verwendet werden, darunter Word, Excel, PowerPoint, Outlook, Mannschaften und mehr.
Die Integration von GPT-4 wird es diesen Apps ermöglichen, effektiver und intelligenter zu funktionieren, sodass Benutzer Aufgaben erledigen und Probleme effizienter lösen können. Die Technologie wird den Benutzern auch dabei helfen, produktiv zu bleiben, indem sie zeitaufwändige Aufgaben wie die Suche nach relevanten Informationen eliminiert und sich wiederholende Aufgaben automatisiert.
Es wird erwartet, dass Microsoft 365 Copilot einen erheblichen Einfluss auf die Produktivität und Effizienz am Arbeitsplatz hat und es den Benutzern ermöglicht, sich auf wichtigere und strategische Aufgaben zu konzentrieren.
Auto-GPT
Auto-GPT ist ein KI-Agent, der darauf programmiert ist, komplexe Aufgaben zu analysieren und selbstständig auszuführen. Im Gegensatz zu anderen KI-Modellen, bei denen Benutzer ihre Abfragen sorgfältig formulieren müssen, generiert Auto-GPT seine eigenen Prompts, um mehrstufige Aufgaben auszuführen. Das System unterteilt größere Aufgaben in kleinere Teilaufgaben und initiiert unabhängige Instanzen von sich selbst, die die Bearbeitung einer Teilaufgabe übernehmen.
Alle diese Instanzen arbeiten zusammen und führen die Ergebnisse an den übergeordneten Agenten zurück. Die Fähigkeit des Systems, im Internet zu surfen und externe Informationen zu integrieren, macht es zu einem leistungsstarken KI-Agenten. AutoGPT kann z.B. im Online-Marketing nützlich sein, automatisiert eine Markt-Analyse durchzuführen oder Blogbeiträge zu recherchieren und zu erstellen. Auto-GPT ist ein Open-Source-Projekt, das unter der Haube die GPT-4-Technologie verwendet.
Be My Eyes
Be My Eyes ist eine App, die sehbehinderten Menschen hilft, Objekte zu identifizieren und sich in ihrer Umgebung zurechtzufinden. Vor kurzem hat die App die Bilderkennungsfunktionen von GPT-4 integriert. Dies wurde durch eine neue Funktion namens „Virtual Volunteer“ ermöglicht. Die Funktion bietet eine Alternative dazu, sich für dieselben Aufgaben auf menschliche Freiwillige zu verlassen.
Die neue Funktion von Be My Eyes ermöglicht es sehbehinderten Menschen, ohne die Hilfe eines menschlichen Freiwilligen Informationen über Objekte in ihrer Umgebung zu erhalten. Mit dieser neuen Funktion kann GPT-4 Bilder erkennen und eine detaillierte Beschreibung des Objekts oder der Szene liefern.
API-Zugriff
Um Zugriff auf die GPT-4-API zu erhalten, müssen sich interessierte Entwickler für die Warteliste anmelden. Die API verwendet dieselbe Chat-Completions-API wie GPT-3.5-Turbo. Der Zugang wird schrittweise gewährt, um die Kapazität mit der Nachfrage auszugleichen. Forscher, die die gesellschaftlichen Auswirkungen von KI oder Fragen der KI-Ausrichtung untersuchen, können einen subventionierten Zugang über das Researcher Access Program beantragen.
Sobald der Zugriff gewährt wurde, können Benutzer reine Textanfragen an das GPT-4-Modell stellen, während sich Bildeingaben noch in einer begrenzten Alpha-Phase befinden. Der Preis für GPT-4 beträgt 0.03 USD pro 1.000 Tokens für den Prompt und 0.06 USD pro 1.000 Tokens für die Antwort.
Das Modell hat eine Kontextlänge von 8.192 Token. Darüber hinaus ist der Zugriff auf die 32.768-Kontextversion GPT-4-32k verfügbar. Jedoch sind die Preise für dieses Modell doppelt so hoch.
Fazit
GPT-4 wird mit seinen bahnbrechenden Fähigkeiten die Branche der Textgenerierung weiter vorantreiben und revolutionieren. Von der Analyse von Informationen über die Beantwortung von Anfragen bis hin zur Automatisierung von Aufgaben bieten die Anwendungen von GPT-4 ein unglaublich breites Einsatzspektrum. Bing, 365 Copilot, AutoGPT sind Be My Eyes sind gute Beispiele für Systeme, die von der neuen Technologie profitieren. Mit dem anhaltenden Fokus auf Forschung und Entwicklung von OpenAI bereiten die Möglichkeiten von GPT-4 eine spannende Perspektive für die Zukunft.
Verweise
- GPT-4 – openai.com
- GPT-4 – Wikipedia
- GPT-4 ist da: Alles, was du dazu wissen musst
- Aligning language models to follow instructions
- [2303.08774] GPT-4 Technical Report
- GPT 4 Computer artificial intelligence board circuit image. (Bild-Quelle)
- Messy Timeline (Bild-Quelle)
- to Infinity and beyond (Bild-Quelle)