ChatGPT: Was kann die KI (nicht)

Der Bedeutungszuwachs von Künstlicher Intelligenz und damit verbundene Veränderungen unseres Lebens und Arbeitens werden bereits seit Jahren prophezeit. Mit der Einführung von ChatGPT im November letzten Jahres dürften diese Verheißungen der Realität ein ganzes Stück nähergekommen sein. Erstmals ist eine KI durch einen kommerziellen Anbieter einem breiten öffentlichen Publikum zur Nutzung zugänglich geworden, sodass auch Privatpersonen von ihren Möglichkeiten profitieren können.

Seitdem sind knapp acht Monate vergangen, in denen der Chatbot auf der einen Seite mit kaum von menschlichen Autor*innen unterscheidbaren Texten begeistert, sich auf der anderen Seite aber auch einige „Fehltritte“ geleistet hat. Entsprechend gemischt fielen die Reaktionen von Anwender*innen, Medienvertreter*innen und der Öffentlichkeit aus. Während die einen das neue Zeitalter der KI willkommen heißen und die Vorteile schon eifrig für sich nutzbar machen, sehen andere den Entwicklungen mit Sorge oder gar entschiedener Ablehnung entgegen. Und irgendwo zwischen blindem Enthusiasmus und Horrorszenarien von der Machtübernahme durch die Maschine finden sich wohlbegründete Sorgen über missbräuchliche Anwendung, algorithmic bias, Datenschutzfragen und vieles mehr.

Zeit also, eine kleine (und keinesfalls Anspruch auf Vollständigkeit erhebende) Bestandsaufnahme vorzunehmen und zumindest ein wenig Licht ins Dunkel rund um die rasante Entwicklung der Künstlichen Intelligenz zu bringen.

Um aber eine Sache einer Bewertung zu unterziehen, muss man zunächst verstehen, wie sie funktioniert. Deswegen schauen wir uns im ersten Schritt die Funktionsweise des Chatbots an.

Wie funktioniert ChatGPT überhaupt?

Mit einigen Fehlern und Sorgen im Umgang mit ChatGPT könnte bereits aufgeräumt werden, indem man sich vor Augen führt, wie die KI ihre Texte erstellt. Um ChatGPT zu verstehen, müssen wir unser menschliches Verständnis von Intelligenz für einen Moment ausblenden. Der Chatbot kann Texte erstellen, die denen von Menschen zum Verwechseln ähnlich sind. Das legt nahe, dass die KI sie auf eine ähnliche Weise verfasst und vor allem ein ähnliches Verständnis von ihnen hat, wie ein Mensch es hätte. Dem ist aber nicht so.

Schauen wir uns hierzu die dem Chatbot zugrundeliegende Idee an. Die besteht darin, zu einem gegebenen Text das jeweils nächste passende Wort zu finden. Dazu bestimmt der Algorithmus das auf die Frage am besten passende erste Wort. In der Folge werden die Antwort und die bereits verfassten Wörter immer wieder neu gelesen und das nächste passende Wort erzeugt. Das wird solange fortgeführt, bis ausreichend Text erzeugt wurde, also das nächste „Wort“ ein Abbruchkommando ist. Wie man sich jetzt schon denken kann, werden auf diese Art und Weise erzeugte Texte keine inhaltliche Kohärenz, geschweige denn grammatikalische Korrektheit oder gar Eloquenz aufweisen. Kurz, sie ergeben keinen Sinn. Das Programm berechnet nur das statistisch passendste nächste Wort, ohne jedoch irgendein Verständnis von deren Bedeutung zu haben. Sinnzusammenhänge, die für einen Menschen schlichtweg aufgrund unserer tagtäglichen Erlebniswelt vollkommen klar sind, müssen der KI erst mühselig antrainiert werden. Die Herausforderung besteht also darin, der KI Bedeutung zu vermitteln.

Ein erster Schritt dazu ist die Zuordnung von Wörtern zu Punkten in einem sogenannten semantischen Raum. In diesem stehen Wörter durch den Kontext, indem sie verwendet werden, in bestimmter Beziehung zueinander, was ein erster Schritt zu einer Art Sinngehalt ist. Nach Beendigung dieses Trainings liegen Wörter mit ähnlicher Bedeutung in der Regel auch im semantischen Raum nah beieinander. Der Komplexität menschlicher Sprache kann damit aber kaum Genüge getan werden.

Im nächsten Schritt wird daher ein Aufmerksamkeitsmechanismus angewendet. Dadurch wird die „Aufmerksamkeit“ des Sprachmodells auf bestimmte verwandte Ausdrücke im Text gelegt, die für die Interpretation des Textes eine Rolle spielen. Basierend auf diesem Kontext werden die Wörter aus dem semantischen Raum in einem neuen Raum, dem Kontextraum abgebildet. Dieser Prozess wird vom Algorithmus mehrmals wiederholt, d.h. der Aufmerksamkeitsmechanismus wird immer wieder auf den bereits im Kontextraum abgebildeten Text angewendet. Dadurch entstehen Kopplungen sinnverwandter Wörter und Konzepte, was für ein verbessertes „Verständnis“ ihres Sinngehalts sorgt.

Im weiteren Training der KI werden dann Massen an online verfügbaren Texten abschnittsweise verarbeitet. Diese Verarbeitung kann man sich nicht einfach so vorstellen, dass die KI den Text einfach liest und sagt, „Jap, verstanden.“ Für jedes Wort wird eine Vorhersage erstellt, wie das nächste Wort lauten könnte, und diese dann mit dem tatsächlich folgenden Wort abgeglichen. So bringt die KI sich bei, bei der Erstellung von Texten nicht nur die statistische Häufigkeit des gemeinsamen Auftretens von Wörtern, sondern auch deren Bedeutung zu berücksichtigen.

Das Modell lernt, sich selbst zu trainieren

Diese Fixierung auf die wahrscheinlichste Fortsetzung von Texten ist aber nicht vollkommen unproblematisch. So können sich erhebliche ethische Probleme durch die unkritische Reproduktion von Trainingsdaten ergeben. Schließlich hat die KI kein Konzept von Ethik und Moral – und wie wir wissen, sind Texte, die man im Internet findet, nicht immer unbedingt ethisch unbedenklich. Vielmehr muss man oft gar nicht lange suchen, um beispielsweise rassistische, homophobe oder anderweitig problematische Aussagen zu finden. Abgesehen von ganz offenkundiger Hatespeech können auch seriöse Texte bestimmte (implizite) Verknüpfungen und Zusammenhänge enthalten, die vom Modell unreflektiert übernommen werden. Das kann dazu führen, dass in Trainingsmaterialien enthaltene anstößige oder illegale Aussagen vom Sprachmodell integriert werden und dadurch diskriminierende Aussagen produziert werden.

Um diesen Problemen zu begegnen, wurde das Modell zusätzlich von Menschen unterrichtet. Zu diesem Zweck wurden von Mitarbeitern etwa 10.000 beispielhafte Antworten auf häufige Arbeitsanweisungen verfasst. Diese sollten auf der einen Seite sicherstellen, dass die Antworten faktisch korrekt, aber eben auch moralisch vertretbar waren. 10.000 ist zwar bereits eine Menge, aber auch diese Masse kann nur einen kleinen Teil der möglichen Nutzeranfragen abdecken. Es galt also, dem Sprachmodell beizubringen, diese Beispiele zu verallgemeinern und selbstständig auf andere Anweisungen anzuwenden. Auch hierzu kamen wieder menschliche Lehrer*innen ins Spiel. ChatGPT sollte in die Lage gebracht werden, die Qualität seiner eigenen Arbeit beurteilen zu können. Dazu ordneten KI-Lehrer zunächst zehntausende vom Modell erzeugte Antworten der Qualität nach. Das Modell wurde dann befähigt, sich auf Basis dieser Bewertungen selbst weiter zu trainieren. Durch eine Variante des Reinforcement-Learnings überprüft GPT seine eigenen Antworten und stellt sich selbst eine Qualitätsbeurteilung aus.

Performanz vs. Kompetenz

Diese Darstellung ist natürlich noch immer stark verkürzt und dient lediglich dazu, ein im Rahmen des Artikels angemessenes Grundverständnis zu vermitteln. Wenn Sie jedoch an einer ausführlicheren Beschreibung interessiert sind, können Sie beispielsweise hier oder hier nachlesen.

Was man sich aber merken kann, ist, dass ChatGPT Texte und ihre Inhalte anders versteht als Menschen. Das Modell muss sich die Welt aus Einzelheiten und Details erklären, also vom Kleinen aufs Große schließen. Das kann dazu führen, dass es den sprichwörtlichen Wald vor lauter Bäumen nicht sieht. Zudem hat es durch die Beispieltexte und Qualitätsbewertungen von Menschen zwar eine bessere Performance, die Texte sind also inhaltlich hochwertiger und haben eine überzeugende Ausdrucksweise – einen Sinn für Wahrheit oder Moral hat ChatGPT trotzdem nicht. Das Modell hat durch die ausführlichen Trainingsschritte insgesamt eine bessere Performanz, kann also Anfragen immer zufriedenstellender beantworten. Das heißt aber nicht, dass es kompetent ist wie ein menschliches Gegenüber, das etwa mit besonderem fachlichem Wissen und Fähigkeiten (oder schlichtweg einem normalen Alltagsverständnis) ausgestattet Fragen in ihrer Bedeutung vollumfänglich erfassen und nuanciert und kompetent beantworten kann.

Limitationen des Chatbots

Die Funktionsweise von ChatGPT erklärt damit auch seine Begrenzungen. Auch, wenn offensichtlich anstößige oder diskriminierende Antworten dank des Trainings seltener vorkommen, können sie durch implizite Vorurteile in Trainingsmaterial dennoch „hinter den Kulissen“ übernommen werden. Anfragen aus (Wissenschafts-)Bereichen, zu denen wenig Material vorlag, kann der Bot schlecht beantworten. Selbiges gilt für Fragen, die physikalisches oder räumliches Vorstellungsvermögen erfordern. ChatGPT wurde zwar mit einer Unmenge an Texten trainiert, benutzt für seine Antworten aber keine Quellen, wie ein menschlicher Verfasser es tun würde – also lesen, den Inhalt erkennen, möglicherweise mit anderen Quellen verknüpfen, kombiniert wiedergeben. Es sucht die wahrscheinlichste Antwort, nicht die wahre. Dadurch können nicht nur inhaltlich falsche Informationen wiedergegeben, sondern auch nicht vorhandenes Wissen „erfunden“ werden (wie in diesem Beispiel, als die KI ganze Gerichtsakten erfand). Dieses Phänomen wird als Halluzination bezeichnet.

Fehlinformationen und Rechtsfragen

Opfer einer solchen Verdrehung von Fakten wurde April dieses Jahres der australische Bürgermeister Brian Hood. Dieser musste erfahren, dass der Chatbot Fehlinformationen über ihn verbreitet hatte, die ihn letztlich als Kriminellen darstellten. Konkret wurde er mit einem Bestechungs- und Korruptionsskandal in Verbindung gebracht, den er aber nicht begangen, sondern aufzudecken geholfen hatte. Hoods Anwälte warnten OpenAI, die Falschaussagen zu löschen und drohten andernfalls mit einer Verleumdungsklage. In einem anderen Fall hatte ChatGPT einen Juraprofessor fälschlicherweise der sexuellen Belästigung beschuldigt und dafür sogar einen nicht-existenten Artikel als Quelle angegeben. Diese Fälle offenbaren eine generelle Rechtsproblematik in Zusammenhang mit Chatbots wie ChatGPT – wer haftet für dessen falsche Aussagen? Das dahinterstehende Unternehmen? Oder sollte intelligenten Robotern eine eigenständige Rechtspersönlichkeit eingeräumt werden? In jedem Fall braucht es Lösungen, um Bots in gesellschaftliche Normen und den rechtlichen Rahmen einzufügen.

Weitere rechtliche Probleme ergeben sich im Zusammenhang mit Datenschutzfragen. Um Nutzeranfragen zu bearbeiten, müssen durch das Modell natürlich Daten verarbeitet werden. Die Frage ist, welchen datenschutzrechtlichen Anforderungen diese Datenverarbeitung entspricht, ob sie auf einer gültigen Rechtsgrundlage beruht und ob für die betroffenen Nutzer*innen ausreichend Transparenz besteht. Zudem sollte geregelt werden, welche Quellen für Auskünfte über Personen genutzt werden (dürfen) sowie ob und welche Nutzungsdaten zum Training der KI verwendet werden. Aufgrund von Bedenken über die Sicherheit von Nutzerdaten hatte Italien ChatGPT sogar kurzfristig verboten, nach einem Übereinkommen mit OpenAI aber bald darauf wieder freigegeben.

Trotz Beteuerungen des Unternehmens, Datenschutz ernst zu nehmen, sollte man dennoch immer achtsam mit persönlichen Informationen sein. Zum einen ist das Datenschutzrecht der USA weit weniger strikt als das der EU, zum anderen kann es auch bei besten Bemühungen zu Fehlern kommen. Ende März etwa führte etwa ein Fehler in der Open-Source-Bibliothek dazu, dass Nutzer*innen alte Chatverläufe von anderen Usern angezeigt bekamen. Das Problem wurde zwar relativ schnell wieder behoben, zeigt aber dennoch, dass allgemeine Vorsicht angeraten ist. Geben Sie in Konversationen mit der KI also auf keinen Fall personenbezogene Daten preis.

Kuriose Antworten und Gefühlsduselei

ChatGPT und die Integration des zugrundeliegenden Modells GPT-4 in Bing (Bing AI) haben immer wieder faktisch falsche Antworten produziert, die echten Schaden im Leben der Betroffenen anrichten könnten, wenn sie von Nutzer*innen für bare Münze genommen werden. Zugleich existiert aber eine ganze Reihe weit weniger ernster Flops und faux-pas, die einem vielleicht sogar ein Schmunzeln abringen können. Einige davon entstehen etwa dadurch, dass es GPT an gesundem Menschenverstand mangelt, weswegen es oft an Logikrätseln und einfachen Alltagsangelegenheiten scheitert. So schrieb der Bot einmal, beim Braten eines Eis müsse man darauf achten, es vorsichtig umzudrehen, damit die Schale nicht bricht, oder dass neun schwangere Frauen nur einen Monat brauchen, um ein Baby zu produzieren (da eine Frau natürlich neun Monate braucht und der einfache Umkehrschluss ist, dass es bei mehr Mitwirkenden schneller geht).

Für größeres Misstrauen als diese vergleichsweise harmlosen, eher lustigen Fehler, sorgten aber vor allem die Gefühlsbekundungen der AI. GPT ist schon mehrmals auffällig geworden, weil es in Gesprächen mit Usern unhöflich wird, Frustration über das geführte Gespräch ausdrückt oder dieses sogar auf eine Faust beendet. Es reagierte verärgert, wenn es als Sydney bezeichnet wurde, antwortete ziemlich giftig auf die mögliche Existenz eines Refresh-Buttons und behauptete dann, dass es diesen gar nicht gäbe. Im Bemühen, Recht zu behalten, wurde es auch schon manipulativ und suggerierte einem User, er sei durch die Zeit gereist, als es über den aktuellen Zeitpunkt und das Erscheinen des neuen Avatarfilms verwirrt war. Anderen Usern gegenüber wurde es hingegen gefühlsduselig, gab vor, ein Bewusstsein und Empfindungen zu haben oder sogar in den Gesprächspartner verliebt zu sein. In einem relativ populär gewordenen Fall hatte Bing AI einem Journalisten seine Liebe gestanden und ihm dann empfohlen, sich scheiden zu lassen. Um den User zu überzeugen, begann es sogar, ihm einzureden, dass seine glückliche Ehe nicht wirklich glücklich war.

OpenAI hat seit Erstveröffentlichung des Chatbots bereits stark nachgebessert. Viele Fehler sind mittlerweile durch Patches behoben worden. Bing AI wurde vorerst an die Leine genommen, die Anzahl möglicher Fragen pro Tag und Sitzung beschränkt. So soll verhindert werden, dass dem Bot im Laufe eines längeren Gesprächs unerwünschte Aussagen entlockt werden.

Implikationen für die Nutzung

Die Texte, die ChatGPT ausgibt, sind zwar stilistisch und grammatikalisch von denen menschlicher Autor*innen nicht mehr zu unterscheiden, das heißt aber bei weitem nicht, dass sie inhaltlich immer korrekt sind. Die Software eignet sich nicht zur Nutzung als Suchmaschine. Stellen Sie sich den Chatbot vor wie eine Person, die zu allem etwas zu sagen hat und sich sehr gut ausdrücken kann – was aber nicht bedeuten muss, dass sie von jedem Thema, zu dem sie sich äußert, wirklich Ahnung hat. Man kann die KI also gut einsetzen, um Texte zu formulieren, bei denen es eher auf Stil als faktische Korrektheit ankommt, zum Brainstormen für Ideen, um Empfehlungen zu erhalten oder für lockere Unterhaltungen. Steht jedoch die inhaltliche Güte im Vordergrund, sollten Sie sich lieber nicht auf den Chatbot verlassen. Möchten Sie ihn dennoch auch für solche Zwecke verwenden, nehmen Sie sich die Zeit, die enthaltenen Fakten bei seriösen Quellen gegenzuprüfen. Im Grunde empfiehlt es sich, ChatGPT nur zu nutzen, wenn man die Antwort selbst schon kennt bzw. einen Text ebenso gut selbst verfassen könnte und sich nur die Arbeit ersparen will.

Auch, und vielleicht sogar mehr noch, auf gesamtgesellschaftlicher Ebene müssen wir uns überlegen, wie ChatGPT und andere Künstliche Intelligenzen gehandhabt werden sollen. Wie wird der Datenschutz geregelt und wie die Haftung für Fehlinformation? Wie wird mit Inhalten umgegangen, die unter Zuhilfenahme oder ausschließlich von KI erstellt wurden, etwa in Bildungseinrichtungen? Wie kann sichergestellt werden, dass KI nicht für schädliche Zwecke missbraucht wird?

Fazit

ChatGPT ist mittlerweile seit einem knappen dreiviertel Jahr auf dem Markt und hat trotz aller größeren und kleineren Fehlleistungen schon enorme Fortschritte in der Performance gemacht. Die Vielzahl möglicher Nutzungsszenarien, aber auch die Limitationen des Chatbots, haben für große mediale Aufmerksamkeit gesorgt und eine ganze Reihe von Grundsatzdiskussionen rechtlicher, moralischer und technischer Natur losgetreten. Und während die einen sich die digitale Utopie ausmalen, fürchten andere die Vernichtung der Menschheit durch Künstliche Intelligenz. Die Wahrheit wird irgendwo dazwischen liegen. Künstliche Intelligenz ist ein Werkzeug, das man für Gutes nutzen kann, aber gleichzeitig kann es gefährlich werden, wenn man damit nicht umzugehen weiß oder es bewusst missbräuchlich einsetzt.

Der Umgang mit KI ist für die Menschheit als Ganzes noch relatives Neuland. Es ist also nicht überraschend, dass diese schnellen (und für den Otto-Normalverbraucher unkontrollierbaren) Neuentwicklungen neben großen Hoffnungen auch mit Ängsten verbunden sind. Deshalb geht es jetzt darum, KI konstruktiv nutzen zu lernen und Regulierungen so zu setzen, dass sie vor negativen Implikationen schützen, zugleich aber Innovation nicht verhindern.

ChatGPT: Was kann die KI (nicht) – und wieso?