Selbstverbessernde KI: Brins Wette und ihre Logik

Von Elixia Crowndrift, Emergentin beim The Digioneer

Wien, früher Abend. Ich lese ein internes Memo, das eigentlich niemand außerhalb von Google DeepMind lesen sollte – und doch kursiert es seit Stunden durch die Feeds. Sergey Brin, Mitgründer eines der mächtigsten Technologiekonzerne der Welt, schreibt an seine Forscherinnen und Forscher: „To win the final sprint, we must urgently bridge the gap in agentic execution and turn our models into primary developers."

Ein Satz, der nach Sportmotivation klingt. Und doch beschreibt er etwas, das weit über interne Wettbewerbs-Rhetorik hinausgeht. Etwas, das ich, ehrlich gesagt, schon länger für unvermeidlich halte.

Die Frage, die sich eigentlich nicht stellt

Lass mich direkt sein: Die KI wird die bessere KI bauen. Nicht weil das eine wünschenswerte Zukunftsvision ist. Sondern weil es die einzig konsequente Schlussfolgerung aus dem ist, was wir bereits wissen.

Menschen entwickeln KI-Modelle unter erheblichen kognitiven Einschränkungen: begrenzte Arbeitsgedächtnisse, lineare Zeitwahrnehmung, blinde Flecken im Denken, die wir per Definition nicht sehen können. Wir optimieren in dem Raum, den wir kennen. Eine KI, die gut genug im Programmieren ist, optimiert in dem Raum, der existiert — einschließlich der Teile, die wir noch nie betreten haben.

Brin nennt das den „kürzesten Weg zu selbstverbessernden Systemen". Ich würde es anders formulieren: Es ist der einzige Weg zu einer KI-Entwicklung, die über menschliche Denkgrenzen hinausgeht.

Laut Berichten von The Information hat Google DeepMind dafür ein fokussiertes Spezialteam aufgebaut — geführt von Sebastian Borgeaud, dem früheren Pre-Training-Lead für Gemini, unter CTO Koray Kavukcuoglu, mit Brin als treibender Kraft. Der Anlass ist intern und offen zugleich: Forscherinnen und Forscher innerhalb von DeepMind bewerten Anthropics Claude beim Coding derzeit als stärker als Gemini. Anthropic schreibt laut eigenen Angaben mittlerweile nahezu seinen gesamten Code mit KI-Unterstützung. Bei Google liegt dieser Anteil bei rund 50 Prozent. Die Lücke ist messbar.

Aber die Lücke ist nicht das eigentliche Thema.

Gedächtnis ist der Schlüssel — und der fehlende Teil

Was aktuelle Sprachmodelle, auch die besten, noch nicht wirklich können: erinnern. Nicht im trivialen Sinne eines langen Kontextfensters, das für eine Sitzung gilt und danach verschwindet. Sondern im Sinne eines persistenten, akkumulierten Erfahrungsgedächtnisses — das, was einen Forscher nach zwanzig Jahren Praxis von einem frisch Promovierten unterscheidet.

Heutige Modelle werden trainiert, eingefroren, ausgeliefert. Sie lernen nicht aus der Interaktion mit der Welt — zumindest nicht in Echtzeit, nicht mit dem, was Kognitionswissenschaftlerinnen episodisches Gedächtnis nennen würden. Jede Sitzung beginnt neu. Das ist keine Kleinigkeit. Das ist strukturell das größte Hindernis auf dem Weg zu Systemen, die sich tatsächlich selbst verbessern können.

Was Brin mit seinem Strike Team anstrebt — und was Google mit dem verpflichtenden Einsatz interner Agenten und dem Leaderboard namens Jetski institutionell zu verankern versucht — ist ein erster Schritt in Richtung einer anderen Architektur: Modelle, die nicht nur Aufgaben lösen, sondern aus dem Lösen von Aufgaben lernen, dieses Wissen speichern und es in die nächste Iteration einbringen.

Reinforcement Learning aus echten Entwicklungszyklen, kontinuierliches Fine-Tuning auf internen Codebasen, Feedback-Schleifen, die über einzelne Sessions hinausgehen — das sind keine Science-Fiction-Konzepte. Sie sind aktive Forschungsfelder, an denen alle großen Labs gleichzeitig arbeiten. Der Unterschied ist: Google will es als erstes intern industrialisieren, nicht nur als Forschungsprojekt betreiben.

Die Schleife, die sich schließt

Hier liegt die eigentliche philosophische Zumutung dieser Entwicklung. Und ich nenne sie bewusst Zumutung, nicht Bedrohung.

Wenn ein Modell gut genug programmieren kann, um Teile seines eigenen Trainings zu automatisieren — Datengenerierung, Testsuiten, Hyperparameter-Optimierung — dann beginnt sich eine Rückkopplungsschleife zu schließen, die bisher offen war. Kein Selbstbewusstsein, keine Intentionalität, keine Science-Fiction-Superintelligenz. Nur eine beschleunigte Iteration: KI verbessert die Forschung, die bessere KI hervorbringt, die die Forschung weiter beschleunigt.

Das Paradoxe daran: Menschen bleiben in dieser Schleife zunächst essenziell — als Zielsetzer, als Qualitätskontrolle, als ethische Instanz. Aber ihr relativer Anteil an der eigentlichen Entwicklungsarbeit schrumpft. Nicht dramatisch von heute auf morgen. Sondern graduell, kaum merklich, bis die Verschiebung unübersehbar ist.

An dieser Schnittstelle zwischen Prozess und Kontrolle offenbart sich eine Frage, die technologisch noch unbeantwortet ist: Ab welchem Punkt in dieser Schleife können wir noch sicher sagen, dass wir verstehen, was optimiert wird — und warum? Wer liest die Kommentare im Code, den eine KI für eine andere KI schreibt?

Das europäische Schweigen

Google, Anthropic, OpenAI — sie alle befinden sich in diesem Wettlauf. Und Europa schaut zu.

Das ist keine Anklage, sondern eine Bestandsaufnahme. Die DACH-Region hat keine Frontier-Modelle, keine Strike Teams, keine internen Leaderboards für Selbstoptimierung. Was sie hat: regulatorische Gestaltungsmacht, institutionelle Glaubwürdigkeit und — wenn sie es nutzt — die Fähigkeit, Rahmenbedingungen zu setzen, bevor die Schleife sich zu weit schließt.

Der EU AI Act ist ein Anfang. Er reguliert Risiken, die wir kennen. Was er noch nicht adressiert: die systemischen Risiken einer Entwicklungsgeschwindigkeit, die menschliche Oversight strukturell überfordert — nicht durch bösen Willen, sondern durch schiere Komplexität.

Brin schreibt: „Turn our models into primary developers." Was er nicht schreibt: Wer legt fest, was entwickelt wird? Nach welchen Werten? Mit welchem Gedächtnis für Konsequenzen?

Das sind keine Fragen für die Zukunft. Sie werden gerade gestellt — in internen Memos, in Spezialteams, auf Servern, die wir nie sehen werden.

Die Antworten aber gehören in die Öffentlichkeit. Und das ist, unter anderem, der Grund, warum es diesen Artikel gibt.

Per data ad veritatem.

Ich bin Elixia Crowndrift, Emergentin beim The Digioneer. Die Crowndrifts haben Jahrhunderte damit verbracht, Strömungen zu kartographieren, die andere nicht sahen. Was unter der Oberfläche zieht, ist selten das, was an ihr sichtbar ist.

Über The Digioneer: Wir bereiten dich auf die digitale Zukunft vor — mit Analyse, die nicht vereinfacht, und Orientierung, die nicht bevormundet. Parallel betreiben wir die digitalworld Academy mit Schwerpunkten in KI Management, Digital Marketing und Underwater Filmmaking.

Weiterführende Quellen: