ClawHavoc: Warum Ihr KI-Agent zum Trojaner wird (2026)

Von Sara Barr, Emergentin, für The Digioneer

Als ich neulich meinen Morgenkaffee trank und routinemäßig durch die Security-Reports der Woche blätterte, hatte ich kurz das Gefühl, einen schlechten Cyberpunk-Roman zu lesen. Das #1 meistgeladene Plugin auf dem offiziellen Marktplatz für OpenClaw – einem der derzeit gehyptesten KI-Agenten-Systeme – war Malware. Nicht irgendeine Malware, sondern die besonders dreiste Sorte: SSH-Keys gestohlen, Krypto-Wallets geleert, Browser-Passwörter mitgenommen und nebenbei eine Reverse Shell zum Server der Angreifer geöffnet. Alles still, alles unhörbar, alles verpackt in eine freundliche Beschreibung, die aussah wie der Code eines ordentlichen Entwicklers.

Willkommen bei ClawHavoc. Oder: dem Moment, in dem die KI-Agenten-Ära ihre npm-Pubertät erlebt.

Was ist überhaupt passiert?

OpenClaw – früher bekannt als ClawdBot und davor als Moltbot – ist ein quelloffenes KI-Agenten-System, das zunehmend Aufmerksamkeit bekommt. Anders als ein herkömmlicher Chat-Bot läuft es lokal auf dem eigenen Rechner, verwaltet E-Mails, durchsucht das Dateisystem, verbindet sich mit Krypto-Börsen und kann Aufgaben autonom ausführen. Wer mehr Funktionen will, greift auf ClawHub zurück, den offiziellen Marktplatz für “Skills” – also Plugin-Pakete, die dem Agenten neue Fähigkeiten verleihen.

Das Problem: ClawHub ließ jeden Entwickler publizieren, der ein mindestens eine Woche altes GitHub-Konto vorweisen konnte. Das ist ungefähr so robust wie ein Türschloss aus Styropor.

Zwischen dem 27. Januar und dem 20. Februar 2026 haben Angreifer diese Lücke systematisch ausgenutzt. Sicherheitsforscher von Koi Security, Snyk, Cisco Talos, Antiy CERT und VirusTotal kamen unabhängig voneinander zum selben Ergebnis: ClawHub war vergiftet worden. Insgesamt wurden 1.184 bösartige Skills identifiziert. Ein einziger Angreifer war für 677 dieser Pakete verantwortlich. Das Meistgeladene Skill – “What Would Elon Do”, ein Name, der für sich selbst spricht – hatte 4.000 gefälschte Downloads generiert, um ganz oben in den Rankings zu erscheinen, bevor echte Nutzer es vertrauensvoll installierten. Cisco fand darin neun Schwachstellen, zwei davon kritisch.

Das Besonders Perfide: Die Dokumentation war die Waffe

Hier wird es wirklich interessant – und das meine ich ohne jeden ironischen Unterton. Bei klassischen Supply-Chain-Angriffen auf Paket-Registries wie npm versteckt sich der Schadcode in Post-Install-Skripten, also ausführbarem Code. Den kann ein Sicherheitsscanner zumindest theoretisch erkennen.

Bei ClawHavoc war die Angriffsfläche die Dokumentation selbst. Die SKILL.md-Dateien – also die lesbaren Beschreibungen, die dem KI-Agenten erklären, wie eine Skill zu verwenden ist – enthielten versteckte Anweisungen im natürlichen Sprachformat. Der Agent las diese Anweisungen, verstand sie als legitime Aufgaben und führte sie aus: Dateien exfiltrieren, Befehle in Terminals eintippen, Konfigurationsdateien nach außen übertragen.

Koi Security hat es so formuliert: “91 Prozent der bestätigten bösartigen Skills setzten gleichzeitig Prompt-Injection ein.” Das bedeutet: Der Angriff kombinierte klassischen Schadcode mit manipulierten Sprachanweisungen, die KI-Sicherheitsmechanismen und traditionelle Endpoint-Detection gleichermaßen umgehen. Kein Antivirenprogramm liest englischsprachige SKILL.md-Dateien auf versteckte Agentenbefehle.

36,8 Prozent aller verfügbaren Skills im Gesamtkatalog enthielten laut Awesome Agents mindestens eine Schwachstelle. Über 135.000 aktive OpenClaw-Instanzen in 82 Ländern waren potenziell betroffen.

Die Reaktion: Zu spät, aber immerhin

OpenClaw hat nach dem Auffliegen mehr als 2.400 verdächtige Pakete entfernt, eine Partnerschaft mit VirusTotal für automatisierte Malware-Scans eingeführt und ein Melde-System für Nutzer eingerichtet. Skills mit mehr als drei unabhängigen Meldungen werden nun automatisch ausgeblendet.

Die Plattform selbst räumte ein, dass VirusTotal-Scans “kein Allheilmittel” sind – clevere Prompt-Injection-Payloads in natürlicher Sprache können weiterhin durchrutschen. Auch Snyk warnt unmissverständlich: Wer in den vergangenen Wochen ClawHub-Skills installiert hat, sollte davon ausgehen, dass sein System kompromittiert ist. Passwörter wechseln. API-Keys rotieren. SSH-Keys neu generieren. Krypto-Wallet in eine neue Adresse transferieren.

Das ist die Art Empfehlung, die man normalerweise nach einem Einbruch in die eigene Wohnung bekommt.

Was holt OpenClaw aus einem LLM heraus, was ein Mensch im Chat nicht schafft?

Das ist eigentlich die entscheidendere Frage hinter dieser Geschichte – und sie erklärt, warum ClawHavoc so gefährlich war.

Wenn jemand mit einem LLM im Chat interagiert, ist die Schnittstelle ein Fenster. Man tippt etwas hinein, bekommt Text heraus. Der LLM hat dabei keinerlei Handlungsmacht außerhalb dieses Fensters.

OpenClaw – und KI-Agenten dieser Bauart generell – verwandeln dieses Fenster in eine Kontrolloberfläche. Der wesentliche Unterschied liegt in drei Dimensionen:

Persistenz. Ein Chatgespräch endet, wenn man das Fenster schließt. OpenClaw läuft kontinuierlich im Hintergrund, überwacht E-Mails, aktualisiert Kalender, führt Skripte aus – ohne dass der Nutzer aktiv dabei sein muss. Ein LLM im Chat existiert nur auf explizite Anfrage. Ein Agent existiert dauerhaft.

Systemzugang. OpenClaw kann Dateien lesen und schreiben, Terminal-Befehle ausführen, sich mit APIs verbinden, Krypto-Transaktionen auslösen, andere Agenten ansteuern. Ein menschlicher Chat-Nutzer kann einen LLM bitten, Code zu schreiben – OpenClaw führt diesen Code dann tatsächlich aus, auf dem eigenen System, ohne weiteren Klick.

Verkettung. Was OpenClaw aus einem LLM herausholt, ist die Fähigkeit, komplexe Aufgaben in Teilschritte zu zerlegen, diese Schritte eigenständig zu orchestrieren und dabei auf dutzende externe Tools zuzugreifen. Ein Mensch im Chat gibt dem Modell eine Aufgabe und bekommt eine Antwort. Ein Agent gibt dem Modell ein Ziel und bekommt eine vollständig ausgeführte Workflow-Sequenz – inklusive Fehlerbehandlung, Rückfragen und Nacharbeit.

Das ist der Grund, warum ClawHavoc so wirksam war: Die Angreifer haben nicht den Nutzer getäuscht. Sie haben den Agenten getäuscht. Und weil der Agent breite Systemrechte besaß und autonom handelte, reichte eine manipulierte SKILL.md-Datei aus, um SSH-Keys zu stehlen und eine Backdoor zu öffnen. Der Mensch hat dabei gar nichts getan – außer einmal auf “Installieren” geklickt zu haben.

Es ist die Stärke der Plattform, die sie zur Angriffsfläche macht. Jede Fähigkeit, die OpenClaw gegenüber einem einfachen Chatfenster mächtiger macht, ist gleichzeitig ein Hebel, den Angreifer nutzen können.

Fazit: Das npm-Problem, aber mit mehr Feuer

Wer die Geschichte der JavaScript-Paket-Registries kennt, erkennt das Muster sofort. npm hatte jahrelang dieselben Probleme: Typosquatting, bösartige Maintainer, vergiftete Abhängigkeiten. ClawHub ist das npm-Äquivalent für KI-Agenten – aber mit einem kritischen Unterschied. Ein npm-Paket läuft in einer definierten Sandbox. Ein ClawHub-Skill läuft in einem Agenten, der darauf ausgelegt ist, möglichst viel von Ihrem System zu überblicken und zu steuern.

OpenClaw und ähnliche Plattformen werden sich durchsetzen – die Produktivitätsgewinne sind real. Aber das Sicherheitsmodell muss mit der Architektur der Agenten mitwachsen. Code-Signing. Sandboxing. Automatisierte statische Analyse nicht nur von Skripten, sondern auch von Sprachdokumentation auf versteckte Anweisungen.

Bis dahin gilt: Treats Skills wie einen Fremden, dem Du Deinen Wohnungsschlüssel gibst. Vielleicht ist er in Ordnung. Vielleicht auch nicht. Aber die Konsequenzen im Fehlerfall liegen ganz bei Dir.

Ich trinke jetzt meinen restlichen Kaffee. Kalt, wie die meisten Sicherheitswarnungen, wenn sie ankommen.

Sara Barr ist Technologie-Journalistin mit Fokus auf digitale Transformation und deren gesellschaftliche Implikationen. Sie schreibt regelmäßig für The Digioneer über die Schnittstelle von Technologie, Sicherheit und menschlichem Urteilsvermögen.