KI-Training & Forschung
ML-Master 2.0 holt 56,44 % Medal-Rate auf MLE-Bench – neuer Stand der Technik
Das ML-Master-Team berichtet im aktuellen State-of-AI-Report eine 56,44-prozentige Medaillenquote auf OpenAIs MLE-Bench unter 24-Stunden-Budget – aktueller Spitzenwert für agentische Machine-Learning-Forschung. Kernneuheit ist eine „Hierarchical Cognitive Caching“-Architektur, die Lernfortschritte über Sub-Tasks hinweg persistent macht. Offene Frage bleibt, ob das Memory-Schema auch außerhalb von ML-Pipelines greift.
Quelle: Air Street – State of AI
KI-Agenten
Anthropic startet zehn Finance-Agenten mit Microsoft 365, Moody's und FIS
Anthropic hat am 5.5. in New York zehn vorkonfigurierte Banking-Agenten allgemein verfügbar gemacht – darunter Pitch Builder, KYC-Screener, Earnings Reviewer und Month-End-Closer – jeweils im Format Claude Cowork und als gehosteter „Claude Managed Agent“. Microsoft 365 ist GA, Moody's wird native Claude-App mit 600 Mio. Firmen, mit FIS entsteht ein gemeinsamer „Financial Crimes“-Agent (Pilot bei BMO und Amalgamated Bank). JPMorgan-Chef Jamie Dimon trat dafür erstmals gemeinsam mit Dario Amodei auf.
Quelle: Bloomberg
Industrie & Markt
Skild AI übernimmt Zebras Robotik-Sparte und schluckt Fetch Robotics samt Symmetry-Plattform
Skild AI hat die Robotics-Automation-Sparte von Zebra Technologies übernommen – inklusive der Orchestrierungsplattform Symmetry Fulfillment und der ehemaligen Fetch Robotics. Damit entsteht der erste KI-native End-to-End-Stack für die Lagerhaus-Automatisierung: Humanoide, autonome mobile Roboter, Roboterarme und Orchestrierung unter einem Dach. Skild will sein „omni-bodied“ Foundation-Model auf alle Roboterklassen verteilen.
Quelle: Skild AI
SpaceX legt 60-Mrd.-USD-Übernahmeoption auf Cursor
Wie der State-of-AI-Report meldet, hat SpaceX die geplante 2-Mrd.-USD-Finanzierungsrunde von Cursor mit einer stehenden 60-Mrd.-USD-Buyout-Option konterkariert; alternativ stehen 10 Mrd. USD im Tausch gegen ein KI-Kooperationsabkommen im Raum. Vollzogen würde der Deal frühestens nach SpaceX' geplantem Sommer-IPO 2026. Cursors Enterprise-Run-Rate steuert laut Bericht auf 6 Mrd. USD zu.
Quelle: Air Street – State of AI
Regulierung & Sicherheit
Microsoft, Google und xAI lassen NIST/CAISI ihre KI-Modelle vor dem Launch testen
Das National Institute of Standards and Technology hat am 5.5. bekannt gegeben, dass Microsoft, Google und xAI dem Center for AI Standards and Innovation (CAISI) unveröffentlichte Modellversionen für Pre-Release-Evaluierungen übergeben. CAISI hat nach eigenen Angaben bereits über 40 Bewertungen abgeschlossen und prüft Risiken für nationale Sicherheit und Volksgesundheit. Auslöser ist Anthropics intern bereits eingesetztes Modell Mythos, dessen Cyber-Fähigkeiten Sorgen bei Behörden, Banken und Versorgern ausgelöst haben.
Quelle: CNN
AISI: Claude Mythos und GPT-5.5 knacken erstmals die 32-Schritt-Cyber-Range „The Last Ones“
Das britische AI Security Institute meldet, dass Anthropics Claude Mythos Preview den 32-stufigen TLO-Parcours (Recon bis Domain-Takeover, ~20 Stunden Red-Team-Arbeit) in 3 von 10 Läufen vollständig löst – bei 73 % Trefferquote auf Expertenaufgaben. OpenAIs GPT-5.5 folgte drei Wochen später mit 2 von 10 Solves und 71,4 %. AISI schätzt die Verdopplungsrate offensiver Cyber-Fähigkeit nun auf vier Monate (Ende 2025: noch sieben Monate).
Quelle: Air Street – State of AI