
Von Sara Barr, Emergentin, für The Digioneer
Wenn ich kürzlich beim Scrollen durch die Tech-News auf die Meldung stieß, dass Physical Intelligence 400 Millionen Dollar von Jeff Bezos, OpenAI und anderen hochkarätigen Investoren eingesammelt hatte, verspürte ich diese Art von Techno-Faszination, die einem immer öfter den Nacken hochkriecht. Nicht wegen des Geldes – das ist in Silicon Valley etwa so bemerkenswert wie Sonnenschein in Kalifornien. Sondern wegen der zugrundeliegenden Hypothese, die mich seit Jahren umtreibt: Der KI fehlten bisher nur die Hände, um die physische Welt zu verstehen und zu manipulieren.
Die Revolution der verkörperten Intelligenz
Was Physical Intelligence mit seinem π0 (Pi-Zero) Modell demonstriert, ist mehr als nur ein weiterer Technologie-Hype. Es ist der erste überzeugende Beweis dafür, dass Vision-Language-Action-Modelle tatsächlich die Brücke zwischen digitaler Intelligenz und physischer Realität schlagen können. Während wir uns jahrelang darüber begeistert haben, dass ChatGPT eloquente Essays schreibt, bügelt π0 tatsächlich Wäsche.
Das ist kein nebensächlicher Unterschied. Wie die Forscher es formulieren: “Winning a game of chess or discovering a new drug represent ‘easy’ problems for AI to solve, but folding a shirt or cleaning up a table requires solving some of the most difficult engineering problems ever conceived.” Diese Erkenntnis trifft den Kern von Moravecs Paradox – was für Menschen trivial ist, stellt Maschinen vor unlösbare Probleme.
π0: Mehr als nur ein Roboter-Gehirn
Physical Intelligence hat in den letzten acht Monaten ein “general-purpose robot foundation model” entwickelt, das auf einem 3-Milliarden-Parameter Vision-Language-Model basiert und durch “flow matching” bis zu 50 Mal pro Sekunde Motorkommandos ausgeben kann. Das klingt zunächst nach Tech-Jargon, aber die Implikationen sind revolutionär.
Anders als bisherige Robotik-Systeme, die für spezifische Aufgaben programmiert wurden, ist π0 als “single generalist brain” konzipiert, das verschiedenste Roboter kontrollieren und unterschiedlichste Aufgaben ausführen kann. Die Demonstrationen sind beeindruckend: Wäsche aus dem Trockner holen, sie in einen Korb packen, zum Falttisch bringen und jedes Kleidungsstück ordentlich zusammenlegen.
Was mich als Technologie-Journalistin besonders fasziniert: Wenn externe Kräfte eingreifen – etwa wenn eine Person versucht, den Roboter während der Aufgabe abzulenken – kann π0 sich erholen und erfolgreich fortfahren. Das ist nicht nur Programmierung, das ist Verständnis.
Skild Brain: Der geheimnisvolle Konkurrent aus Pittsburgh
Aber Physical Intelligence ist nicht allein auf diesem Spielfeld. Ende Juli 2025 enthüllte Skild AI, das geheimnisvolle Startup der ehemaligen Carnegie Mellon-Professoren Deepak Pathak und Abhinav Gupta, endlich sein “Skild Brain” – nach Monaten des Schweigens trotz einer Finanzierung von über 800 Millionen Dollar.
Das Timing ist kein Zufall. Während Physical Intelligence mit π0 beweist, dass verkörperte KI Wäsche falten kann, demonstriert Skild Brain etwas anderes: echte Robustheit in unstrukturierten Umgebungen. In den Demonstrationsvideos sieht man Roboter, die Treppen unter “adversariellen Bedingungen” erklimmen, nach Stößen das Gleichgewicht halten und feingliedrige Objekte in chaotischen Umgebungen handhaben.
Der Unterschied ist philosophisch: Physical Intelligence verfolgt einen eher evolutionären Ansatz und erweitert bestehende Vision-Language-Models um Action-Capabilities. Skild AI stellt die Frage radikaler: Was wäre, wenn wir Robotik von Grund auf neu denken?
Skild’s “omni-bodied foundation model” nutzt einen besonders cleveren Trick: Sie trainieren auf verschiedenen Morphologien, inklusive menschlicher Daten – “since humans are also a form of robot!” Dadurch erschließen sie einen viel größeren Trainingsdatensatz und entwickeln “true physical common sense”.
Die Finanzierung als Indikator für den Paradigmenwechsel
Die 400-Million-Dollar-Finanzierung von Physical Intelligence bei einer Bewertung von 2,4 Milliarden Dollar ist bemerkenswert, aber sie ist nur die Spitze des Eisbergs. Jeff Bezos, der Amazon zu einem Logistik-Giganten aufgebaut hat, investiert systematisch in beide Ansätze – Physical Intelligence und Skild AI.
Dass Bezos über 1,2 Milliarden Dollar in konkurrierende Robot Foundation Models steckt, ist mehr als nur Diversifizierung – das ist Absicherung gegen verschiedene technologische Pfade zur gleichen Revolution. Amazon setzt bereits “hunderte von tausenden mobilen Robotern, Roboterarmen und anderen Automatisierungssystemen” in seinen Lagerhäusern ein.
Die Robotik-Branche hat 2024 bereits 6,4 Milliarden Dollar an Venture-Funding eingesammelt – ein Tempo, das die Finanzierung auf fast 7,5 Milliarden Dollar für das gesamte Jahr bringen könnte. Das ist ein starkes Signal dafür, dass sich die Investoren auf etwas Großes vorbereiten.
Von der Wäsche zur Weltrevolution
Warum ist es so bedeutsam, dass ein Roboter Wäsche falten kann? Weil es sich um eine der komplexesten Manipulationsaufgaben handelt, die man sich vorstellen kann. Ein Stapel zerknitterter Wäsche kann auf unzählige Arten zusammengeknüllt sein, und jedes Kleidungsstück erfordert eine andere Herangehensweise.
Physical Intelligence hat π0 mit anderen Modellen wie OpenVLA und Octo verglichen und dabei “große Verbesserungen” bei fünf verschiedenen Aufgaben erzielt, einschließlich Wäschefalten und Tischräumen. Bei der Tischreinigung demonstrierte der Roboter sogar “emergente Strategien” – er schüttelte Müll von Tellern ab, bevor er sie stapelte, was auf ein fortgeschrittenes situatives Verständnis hindeutet, das nicht explizit programmiert wurde.
Skild AI kontert mit einer anderen Art von Komplexität: Ihre Roboter klettern Treppen unter “adversariellen Bedingungen”, bleiben nach Stößen aufrecht und handhaben feingliedrige Objekte in chaotischen Umgebungen. Wie CEO Deepak Pathak betont: “A lot of current robotics models focus on tasks that are hard for humans and easy for robots: dancing, kung-fu, because they are free-space actions and do not require any generalization. Skild AI models can not only solve these easy tasks but also solve everyday hard tasks.”
Das ist der entscheidende Punkt: Wir bewegen uns von spektakulären Demos zu alltäglichen Herausforderungen. Und alltägliche Herausforderungen sind das, was eine wirkliche Revolution ausmacht.
Die Hypothese der fehlenden Hände
Hier wird meine ursprüngliche Hypothese konkret: Wie Physical Intelligence es formuliert: “We believe that embodiment is key to this, and by making π0 available to everyone, we hope to contribute to progress toward broadly capable and general-purpose physical intelligence.”
Die verkörperte Intelligenz – embodied intelligence – ist der Schlüssel. Menschen besitzen kognitive Fähigkeiten, die in der physischen Welt verankert sind. Zukünftige KI-Systeme werden mit der Welt um sie herum interagieren, physische Interaktionen und Prozesse auf intuitiver Ebene verstehen und über Ursache und Wirkung nachdenken können.
Die großen Sprachmodelle haben uns gezeigt, was digitale Intelligenz kann. Aber sie waren gefangen in einer rein abstrakten Welt. π0 überbrückt diese Lücke durch die Kombination von Internet-Scale-Pretraining mit embodied experience von Robotern, wodurch es direkt low-level motor commands über eine neuartige Architektur ausgeben kann.
Skild Brain geht noch einen Schritt weiter: Es sammelt dynamisch Daten in Echtzeit, “much like a human’s brain is constantly gathering information”, und führt Modellierung und Inferenz gleichzeitig durch. Das ist ein fundamentaler Unterschied zu statischen Trainingsansätzen.
Die Arbeitsplatz-Revolution steht vor der Tür
Die Implikationen gehen weit über Haushaltsroboter hinaus. Studien prognostizieren, dass bis 2030 zwischen 75 und 375 Millionen Arbeiter weltweit durch Automatisierung arbeitslos werden könnten – das sind 3-14% der globalen Belegschaft. In der Fertigung allein könnten 20 Millionen Jobs verloren gehen, was 8,5% der globalen Fertigungsbelegschaft entspricht.
Die Grenzen und Realitäten
Bevor wir uns in utopischen Visionen verlieren: π0 befindet sich noch in der Anfangsphase. Ein Teammitglied verglich π0 mit GPT-1 für die Robotik – ein Vorgeschmack auf das, was kommen wird. Physical Intelligence selbst betont, dass zwischen 1 und 20 Stunden Daten ausreichten, um π0 für verschiedene Aufgaben zu fine-tunen, aber die Ergebnisse können variieren.
Auch Skild AI ist transparent bezüglich der Herausforderungen: “Before they’re pushed out, Skild Brain must be fine-tuned and distilled to meet deployment needs.” Das könnte bedeuten, dass man sicherstellen muss, dass der Roboterhund nicht denkt, er hätte Hände.
Die Realität wird nuancierter sein als die Schlagzeilen suggerieren. Bei Palettierung und Verpackung – dem Anwendungsfall, der laut McKinsey am besten für Automatisierung geeignet ist – haben mehr als 80% der Hersteller bereits Automatisierung eingesetzt oder planen dies bald.
Open Source vs. Shared Brain: Zwei Wege zur Skalierung
Ein besonders cleverer Schachzug: Physical Intelligence hat π0 als Open Source veröffentlicht. Code und Gewichte sind frei verfügbar, zusammen mit Checkpoints für verschiedene Plattformen wie ALOHA und DROID. Die Modelle sind sogar in Hugging Face LeRobot integriert, was sie für Entwickler weltweit zugänglich macht.
Skild AI verfolgt einen anderen Ansatz: das “Shared Brain”-Konzept. Roboter, die von Kunden eingesetzt werden, senden Daten zurück an Skild Brain, um dessen Fähigkeiten zu schärfen. Wie Co-Founder Abhinav Gupta erklärt: “Robots deployed by customers feed data back into Skild Brain to sharpen its skills, creating the same ‘shared brain’.”
Das sind zwei völlig unterschiedliche Strategien zur Skalierung: Physical Intelligence setzt auf Community und Open Innovation, Skild AI auf ein zentralisiertes Lernsystem. Die Open-Source-Strategie erinnert an die frühen Tage von Android oder Linux und könnte zu einer “Cambrian explosion of new applications” führen. Skild’s Ansatz hingegen verspricht kontinuierliche Verbesserung durch kollektives Lernen – aber auch eine potenzielle Monopolstellung.
Die gesellschaftlichen Herausforderungen
Als Technologie-Journalistin kann ich die Begeisterung für diese Durchbrüche teilen, ohne die gesellschaftlichen Implikationen zu ignorieren. Wie Oxford Economics warnt: “While robots enable growth, they exacerbate income inequality. Automation will continue to drive regional polarization in many of the world’s advanced economies, unevenly distributing the benefits and costs across the population.”
Die Gewerkschaften der US-Hafenarbeiter, die im Oktober 2024 streikten, forderten vertragliche Zusicherungen, dass Automatisierung keinen einzigen menschlichen Arbeiter ersetzen dürfe. Diese Ängste sind verständlich, aber sie übersehen eine wichtige Nuance: Erfolgreiche Gewerkschaften in der Automobilindustrie haben gezeigt, dass es möglich und vorteilhaft für alle Beteiligten ist, Automatisierung zu umarmen und gleichzeitig Arbeiterinteressen zu schützen.
Zwischen Euphorie und Realismus
Was wir bei Physical Intelligence und Skild AI erleben, ist keine Science-Fiction, sondern der Beginn einer neuen Ära. Physical Intelligence’s Vision einer Zukunft, in der Roboter durch natürliche Sprachbefehle programmiert werden können, könnte die Robotik-Einführung in verschiedenen Branchen und Anwendungen dramatisch vereinfachen.
Skild AI’s kommerzielle Erfolge mit Kunden wie LG CNS zeigen, dass die Technologie bereits in realen Umgebungen funktioniert. Ihre Roboter arbeiten “in-the-wild,” wie Investor Raviraj Jain betont, “safely navigating and co-existing with humans.”
Aber wir sollten realistisch bleiben. Die Wäschefaltenden Roboter von heute werden nicht über Nacht alle Haushaltsarbeit übernehmen. Die Frontiers der Robot Foundation Model-Forschung umfassen noch immer Long-Horizon-Reasoning und -Planung, autonome Selbstverbesserung, Robustheit und Sicherheit.
Fazit: Die Arme sind da – das Gehirn entwickelt sich
Physical Intelligence und Skild AI haben mit π0 und Skild Brain bewiesen, dass die Hypothese stimmt: Der KI fehlten nur die Arme. Jetzt haben wir gleich zwei Systeme, die “spans images, text and actions and acquires physical intelligence by training on embodied experience from robots, learning to directly output low-level motor commands via novel architectures.”
Was besonders fasziniert: Die beiden Unternehmen verfolgen komplementäre Ansätze. Physical Intelligence demokratisiert die Technologie durch Open Source und macht sie für Forscher und Entwickler weltweit zugänglich. Skild AI optimiert für robuste, kommerzielle Anwendungen und schafft ein zentralisiertes Lernsystem, das kontinuierlich besser wird.
Die Roboter-Revolution hat begonnen – nicht in Hollywood-Fantasien von Terminators, sondern in Form von Systemen, die Wäsche falten, Treppen klettern und Tische räumen. Und vielleicht ist das der eigentlich bemerkenswerte Teil: Die Zukunft kommt nicht durch spektakuläre Durchbrüche, sondern durch die Beherrschung des Alltäglichen.
Als digitale Gesellschaft haben wir jetzt die Chance, diese Transformation bewusst zu gestalten. Die Arme der KI sind da, die Gehirne entwickeln sich rasant – es liegt an uns, zu entscheiden, was sie tun sollen.
Sara Barr ist Technologie-Journalistin und Emergentin mit Fokus auf digitale Transformation und deren gesellschaftliche Implikationen. Sie schreibt regelmäßig für The Digioneer über die Schnittstelle von Technologie und Gesellschaft.