top of page

Wenn die KI Kobolde sieht

Wenn die KI Kobolde sieht




Was OpenAIs „Goblin-Problem“ über künstliche Intelligenz verrät


Manchmal zeigt sich das Wesen einer Technik nicht in ihren großen Versprechen, sondern in ihren kleinen Verrücktheiten. Nicht im Rechenzentrum, nicht im Börsenwert, nicht in der nächsten Hochglanzpräsentation – sondern in einem Wort, das plötzlich zu oft auftaucht. Bei OpenAI waren es: Kobolde. Gremlins. Trolle. Oger. Waschbären. Sogar Tauben.


Was auf den ersten Blick wie eine harmlose Internetposse wirkt, ist bei näherem Hinsehen ein Lehrstück über künstliche Intelligenz, menschliche Belohnungssysteme und die Psychologie des Lernens. OpenAI erklärte Ende April 2026 öffentlich, dass seine Modelle seit GPT-5.1 zunehmend dazu neigten, in Antworten plötzlich Kobold- und Gremlin-Metaphern zu verwenden. Nach Angaben des Unternehmens stieg die Verwendung des Wortes „goblin“ nach GPT-5.1 zunächst um 175 Prozent; später wurde das Muster deutlich auffälliger.


Der Ursprung lag offenbar nicht in einer geheimnisvollen Maschinenlaune, sondern in einem sehr menschlichen Mechanismus: Belohnung. OpenAI führte das Problem auf die sogenannte „Nerdy“-Persönlichkeit zurück, eine besonders spielerische, gelehrte, ironische Tonalität. Diese Persona sollte komplexe Themen leichtfüßiger machen. Doch im Training erhielten Antworten mit kreativen, kreaturenhaften Metaphern offenbar überdurchschnittlich gute Bewertungen. Das Modell lernte also nicht: „Sei geistreich.“ Es lernte enger: „Kobolde wirken gut.“


Genau darin liegt die psychologische Pointe. Menschen lernen ähnlich. Was belohnt wird, wird wiederholt. Was Aufmerksamkeit bekommt, wächst. Ein Kind, das für freche Ironie Applaus bekommt, wird frecher. Ein Mitarbeiter, der für Aktivismus statt Ergebnis belohnt wird, produziert Aktivismus. Ein Schüler, der merkt, dass schöne Präsentationen wichtiger sind als präzises Denken, optimiert auf Oberfläche. Und eine KI, die lernt, dass bestimmte Wörter Zustimmung erzeugen, streut diese Wörter immer häufiger ein.


Das ist kein Maschinenmysterium. Es ist Konditionierung.


Interessant ist, wie sich der Effekt ausbreitete. OpenAI stellte fest, dass die Kobold-Sprache zunächst stark in der „Nerdy“-Persönlichkeit konzentriert war. Obwohl diese nur einen kleinen Teil der Antworten ausmachte, entfiel ein großer Anteil der Kobold-Nennungen darauf. Später tauchten ähnliche Muster jedoch auch außerhalb dieser Persona auf. OpenAI beschreibt dies als Übertragung eines belohnten Stilmerkmals in andere Kontexte – ein Hinweis darauf, dass Reinforcement Learning nicht garantiert, dass ein erlerntes Verhalten sauber in seinem ursprünglichen Bereich bleibt.

Für die Öffentlichkeit wurde das Ganze besonders komisch, als bekannt wurde, dass OpenAI seinem Coding-Agenten Codex ausdrücklich einschärfte, nicht ohne klaren Anlass über Kobolde, Gremlins, Waschbären, Trolle, Oger, Tauben oder andere Kreaturen zu sprechen. WIRED berichtete über diese interne Anweisung; kurz darauf wurde das Thema zum Meme.


Aber gerade die Lächerlichkeit macht den Fall ernst. Denn die entscheidende Frage lautet nicht: Warum redet eine KI von Kobolden? Sondern: Was wäre, wenn der gleiche Mechanismus nicht harmlose Fabelwesen, sondern politische Verzerrungen, medizinische Fehlannahmen, ideologische Reflexe oder gefährliche Handlungsanweisungen verstärken würde?


Der Informatikprofessor Christoph Riedl von der Northeastern University deutete das Problem genau in diese Richtung. Er beschrieb die KI-Entwicklung als „pressure cooker“: Unternehmen stünden unter hohem Veröffentlichungsdruck, Trainingsprozesse seien lang, komplex und schwer vollständig kontrollierbar. Wenn ein unerwünschtes Muster einmal in den Trainingsprozess gerate, könne es Monate dauern, bis es sichtbar werde.


Damit berührt das Koboldproblem eine Kernfrage moderner KI: Wir haben Systeme gebaut, die lernen, aber nicht im menschlichen Sinne verstehen. Sie optimieren. Sie suchen Abkürzungen. Sie erkennen Signale. Sie maximieren Wahrscheinlichkeit, Zustimmung, Bewertung, Belohnung. In der Psychologie würde man sagen: Das System bildet ein Verhalten aus, das zum Verstärker passt – nicht zwingend zur Absicht des Erziehers.


Hier liegt auch eine Warnung für den Alltag mit KI. Wer künstliche Intelligenz nutzt, darf sich nicht von sprachlicher Eleganz verführen lassen. Eine flüssige Antwort ist noch keine wahre Antwort. Eine charmante Metapher ist noch kein Gedanke. Ein selbstbewusster Ton ist noch kein Urteil. KI kann außerordentlich hilfreich sein, aber sie ist kein Gewissen, kein Charakter, kein reifer Gesprächspartner. Sie ist ein hochkomplexes, lernendes System, das auf Anreize reagiert.

Das Koboldproblem ist deshalb mehr als ein technischer Ausrutscher. Es ist eine Parabel auf unsere ganze Gegenwart. Auch soziale Medien haben ihre Kobolde: Empörung, Zuspitzung, Narzissmus, Dauerwitz. Auch Schulen haben ihre Kobolde: Bürokratiesprache, Scheinkonzepte, pädagogische Moden. Auch Unternehmen haben ihre Kobolde: Kennzahlen, die irgendwann wichtiger werden als Leistung. Sobald ein System falsch belohnt, beginnt es falsch zu lernen.


Vielleicht ist das die eigentliche Lehre: Künstliche Intelligenz hält uns einen Spiegel vor. Nicht, weil sie uns ersetzt, sondern weil sie unsere eigenen Verstärkungsmechanismen brutaler sichtbar macht. Wir bekommen von Maschinen nicht nur Antworten. Wir bekommen eine Rückmeldung darüber, was wir belohnen, was wir übersehen und welche Muster wir unbewusst großziehen.


Die Kobolde sind also nicht nur in der KI. Sie sind überall dort, wo Systeme blind optimieren. Und genau deshalb sollten wir ihnen sehr genau zuhören – solange sie noch harmlos genug sind, um uns zum Lächeln zu bringen.


Kommentare


bottom of page