AGI & Frontier-Modelle
Anthropic veröffentlicht Claude Opus 4.7
Anthropic hat Claude Opus 4.7 allgemein verfügbar gemacht und positioniert das Modell als klaren Schritt über Opus 4.6 – insbesondere bei anspruchsvoller Softwareentwicklung und langen, mehrstufigen Aufgaben. Laut Anthropic verbessert Opus 4.7 zudem die Bildverarbeitung deutlich (höhere Auflösung) und bleibt preislich auf dem Niveau von Opus 4.6.
KI-Agenten
OpenAI entwickelt das Agents SDK weiter: Harness + Sandbox, Manifest und Snapshotting
OpenAI beschreibt eine neue Architektur des Agents SDK mit zwei Ebenen: einer Orchestrierungs-/Harness-Schicht (Instruktionen, Tools, Approvals, Tracing, Handoffs) und einer Sandbox-Schicht mit Files, Shell, Packages und Isolation. Neu sind u.a. ein „Manifest“ zur portablen Workspace-Definition sowie Snapshotting/Rehydration, damit langlaufende Agenten-Sessions nach Abbrüchen fortgesetzt werden können.
VAKRA: IBM Research zeigt, wo Tool-Agents in realistischen Workflows scheitern
IBM Research stellt mit VAKRA einen ausführbaren Benchmark vor, der Agenten in unternehmensnahen Umgebungen mit über 8.000 lokal gehosteten APIs, Datenbanken und Dokumentkorpora testet. Das Fazit: Trotz sichtbarer Fortschritte bei einzelnen Tool-Aufrufen brechen viele Modelle in kompositionellen Multi-Hop-Workflows und bei Policy-Constraints ein – ein Hinweis auf die noch fehlende End-to-End-Zuverlässigkeit.
KI-Training & Forschung
Google veröffentlicht Gemma 4 unter Apache 2.0 – mit Fokus auf Reasoning und agentische Workflows
Google stellt Gemma 4 als Open-Model-Familie in vier Größen (E2B, E4B, 26B MoE, 31B Dense) vor und betont „intelligence-per-parameter“ für fortgeschrittenes Reasoning. Für Agenten-Setups nennt Google native Function-Calling-Unterstützung, strukturierte JSON-Ausgaben und System-Instructions; je nach Modellgröße werden 128K bis 256K Kontextfenster hervorgehoben.
Hugging Face: Fine-Tuning multimodaler Embedding- und Reranker-Modelle mit Sentence Transformers
Hugging Face zeigt, wie sich multimodale Embedding- und Reranker-Modelle (Text+Bild u.a.) mit Sentence Transformers gezielt auf eigene Domänendaten trainieren lassen, z.B. für „Visual Document Retrieval“. Im Praxisbeispiel wird ein Qwen-basiertes Modell durch Fine-Tuning messbar verbessert (NDCG@10), was die Relevanz domänenspezifischer Trainingsdaten unterstreicht.
Industrie & Markt
Salesforce startet Headless 360: CRM-Funktionen als API/MCP/CLI für Agenten
Salesforce kündigt Headless 360 als Initiative an, die Fähigkeiten der Plattform als APIs, MCP-Tools und CLI-Kommandos zugänglich macht, damit Agenten das System ohne Browser bedienen können. Laut Bericht umfasst der Start über 100 neue Tools/Skills, eine Experience-Layer-Abstraktion für verschiedene Oberflächen (u.a. Slack, Teams) sowie neue Test-/Eval- und Lifecycle-Werkzeuge zur Skalierung agentischer Systeme.
Regulierung & Sicherheit
Claude Mythos Preview bleibt eingeschränkt – wegen außergewöhnlicher Vulnerability-Fähigkeiten
Laut t3n (dpa) hält Anthropic Claude Mythos Preview weiter zurück, weil das Modell besonders stark darin ist, bislang unbekannte Schwachstellen zu finden und schnell zu exploitieren. Zugang gibt es demnach nur für ausgewählte Partner im Rahmen von „Project Glasswing“, um Sicherheitslücken defensiv zu schließen.
🔗 t3n