Automatisiertes Prompting mit DSPy

Wien, früher Morgen. Während ich diese Zeilen tippe, optimiert irgendwo ein Algorithmus Prompts für einen anderen Algorithmus, der wiederum Inhalte für Menschen erstellt. Diese rekursive Choreographie digitaler Intelligenz hätte vor drei Jahren noch wie Science-Fiction geklungen. Heute ist sie schlicht die logische Konsequenz einer Erkenntnis: Die beste Art, mit KI zu kommunizieren, ist oft, die KI selbst sprechen zu lassen.

Die Sisyphusarbeit des manuellen Promptings

Erinnern Sie sich an die frühen Tage von ChatGPT? Wir alle wurden zu Amateur-Linguisten, feilten an Formulierungen, experimentierten mit Temperaturen und Top-P-Werten, als würden wir ein empfindliches Instrument stimmen. „Act as an expert in...", „Think step by step", „Let's think about this carefully" – unser kollektives Prompt-Vokabular wuchs exponentiell. Doch mit jedem neuen Modell begann das Spiel von vorn.

Die Crux dabei: Wir optimierten für ein bewegliches Ziel. Was gestern bei GPT-4 funktionierte, versagte heute bei Claude. Was bei Gemini exzellent performte, enttäuschte bei Llama. Wir navigierten durch digitale Strömungen ohne verlässlichen Kompass – bestenfalls mit Intuition und Trial-and-Error.

DSPy: Wenn Prompts zu Programmen werden

Drew Breunig hat in einem bemerkenswerten 30-minütigen Vortrag eine Perspektive artikuliert, die das Paradigma fundamental verschiebt: Behandle Prompting nicht als Handwerk, sondern als Kompilierung. Sein Framework DSPy (Declarative Self-improving Python) transformiert die Art, wie wir mit Large Language Models interagieren.

Die Kernidee ist elegant: Statt Stunden damit zu verbringen, den perfekten Prompt zu formulieren, definierst du lediglich, was du erreichen willst – Input, gewünschter Output, Evaluationskriterien. DSPy übernimmt dann das Wie, generiert automatisch Prompt-Variationen, testet diese gegen deine Datensätze und optimiert iterativ.

Breunigs eigenes Beispiel illustriert die Potenz dieses Ansatzes: Seine Genauigkeit bei einer spezifischen Aufgabe sprang von 60% auf 82% – nicht durch akribisches Prompt-Tuning, sondern durch 14 Zeilen deklarativen Code. Vierzehn Zeilen, die das System instruieren, was zu tun ist, während DSPy herausfindet, wie es am besten kommuniziert werden sollte.

Die Gegenüberstellung: Manuell vs. Automatisiert

Lass uns konkret werden. Stell dir vor, du willst Kundenbewertungen automatisch kategorisieren – positiv, neutral oder negativ. Eine alltägliche Aufgabe für jeden Online-Shop, jede Plattform mit User-Generated-Content.

Der manuelle Weg: Die Sisyphusarbeit

Du öffnest ChatGPT und schreibst:

Bewerte diese Kundenmeinung als positiv, neutral oder negativ:

"Das Produkt kam schnell an, aber die Qualität ist enttäuschend."

Ergebnis: "Positiv"

Die KI hat "schnell" überbewertet und das "aber" ignoriert. Frustrierend.

Also versuchst du es detaillierter:

Analysiere die folgende Kundenbewertung sorgfältig und kategorisiere 
sie als positiv, neutral oder negativ. Achte auf die Gesamtstimmung:

"Das Produkt kam schnell an, aber die Qualität ist enttäuschend."

Ergebnis: "Neutral"

Besser, aber immer noch nicht korrekt. Nach zwanzig weiteren Iterationen, drei Kaffees und wachsender Resignation hast du einen Prompt, der in 70% der Fälle funktioniert. Dann wechselst du von GPT-4 zu Claude – und die Genauigkeit fällt auf 65%. Du beginnst von vorn.

Der DSPy-Weg: Die Delegation

Mit DSPy schreibst du keinen Prompt. Du schreibst eine Spezifikation:

python

# Du sagst: "Das ist meine Aufgabe"
class SentimentAnalysis(dspy.Signature):
    """Analysiere Kundenbewertungen nach Stimmung"""
    review = dspy.InputField()          # Das kommt rein
    sentiment = dspy.OutputField()       # Das will ich raus

# Du gibst Beispiele (20-50 Stück reichen)
training_data = [
    {"review": "Super Produkt!", "sentiment": "positiv"},
    {"review": "Schnell geliefert, aber enttäuschende Qualität", "sentiment": "negativ"},
    # ... weitere Beispiele
]

# Du sagst: "Optimiere das für mich"
optimizer = dspy.MIPROv2()
optimized_system = optimizer.compile(analyzer, trainset=training_data)

Was passiert hinter den Kulissen?

DSPy generiert hunderte Prompt-Variationen, testet sie gegen deine Beispiele und findet die optimale Kombination. Der resultierende Prompt könnte etwa so aussehen (stark vereinfacht):

Du bist Experte für Sentimentanalyse. Analysiere Schritt für Schritt:

1. Identifiziere positive Signale
2. Identifiziere negative Signale  
3. Achte besonders auf Kontrastmarker wie "aber", "jedoch", "leider"
4. Gewichte die Aspekte nach Relevanz
5. Produkt-Qualität wiegt schwerer als Service-Aspekte

Bei Kontrastmarkern: Die Aussage nach dem "aber" ist meist entscheidend.

Bewertung: "Das Produkt kam schnell an, aber die Qualität ist enttäuschend."

Analyse:
- Positiv: Liefergeschwindigkeit
- Negativ: Produktqualität (Kernaspekt)
- Kontrastmarker "aber" → Fokus auf zweiten Teil
- Qualität > Lieferung

Sentiment: negativ

Das Ergebnis:

Deine manuelle Version: 70% Genauigkeit nach 3 Stunden
DSPy-Version: 85% Genauigkeit nach 15 Minuten Setup

Und der eigentliche Game-Changer: Wechselst du von GPT-4 zu Claude? Ein Befehl (optimizer.compile()), und DSPy generiert automatisch einen neuen, für Claude optimierten Prompt. Deine Arbeit bleibt erhalten.

Die eigentliche Magie

Der von DSPy generierte Prompt ist 700 Wörter lang – weit komplexer als das, was du oder ich manuell entwickeln würden. Er enthält Nuancen, Gewichtungen und Heuristiken, die durch systematisches Testen emergiert sind. Es ist wie der Unterschied zwischen einem von Hand gezeichneten Stadtplan und einem GPS-optimierten Routing-Algorithmus.

Du definierst das Ziel. DSPy findet den Weg.

Die drei Säulen des automatisierten Promptings

DSPy ruht auf einer konzeptionellen Trias:

Deklaration statt Instruktion: Du beschreibst das gewünschte Verhalten als Funktion – was hinein geht, was herauskommen soll. Die Implementierungsdetails sind Sache des Systems.

Kontinuierliche Optimierung: Mit jedem Modelwechsel (und die kommen, glauben Sie mir, häufiger als Wiener Kaffeehausbesuche) generiert DSPy automatisch neue, für das jeweilige Modell optimierte Prompts. Keine Migration, keine Anpassung, keine Regression.

Empirische Validierung: Statt auf Intuition zu vertrauen, testet DSPy systematisch gegen deine Evaluation-Daten. Was funktioniert, wird verstärkt; was scheitert, wird verworfen. Darwinistische Selektion im digitalen Raum.

Die philosophische Implikation

An dieser Stelle lohnt ein kurzer Schritt zurück. Was DSPy repräsentiert, transzendiert technische Effizienz. Es manifestiert eine grundlegende Verschiebung in unserer Beziehung zu KI-Systemen: von expliziter Anweisung zu abstrakter Spezifikation.

In gewisser Weise spiegelt dies die Evolution der Programmiersprachen selbst – von Assembler über C zu Python, von imperativ zu deklarativ, von „wie" zu „was". DSPy ist gewissermaßen die SQL für Sprachmodelle: Du fragst nach Ergebnissen, nicht nach Prozessen.

Für uns als Mergitoren beim Digioneer bedeutet dies eine Liberation von repetitiver Optimierungsarbeit zugunsten konzeptioneller Arbeit. Wir können uns darauf konzentrieren, welche Fragen gestellt werden sollten, während das System herausfindet, wie sie am effektivsten formuliert werden.

Die Implementation ist überraschend zugänglich. DSPy ist open-source, aktiv entwickelt von Stanford NLP, und die Lernkurve ist moderat für jeden mit grundlegenden Python-Kenntnissen. Die Dokumentation ist präzise, die Community wächst, und die Beispiele reichen von einfachen Klassifikationen bis zu komplexen Multi-Step-Reasoning-Aufgaben.

Was mich besonders fasziniert: DSPy funktioniert modell-agnostisch. Du kannst zwischen GPT-4, Claude, Gemini oder open-source Alternativen wechseln, und das System re-optimiert automatisch. Diese Portabilität ist nicht nur praktisch – sie ist strategisch essentiell in einer Landschaft, die sich schneller transformiert als regulatorische Frameworks folgen können.

Die Meta-Ironie

Es gibt eine subtile Ironie in all dem: Wir nutzen hochentwickelte Sprachmodelle, um zu lernen, wie man besser mit hochentwickelten Sprachmodellen kommuniziert. Es ist rekursive Selbstverbesserung in reinster Form – und vielleicht ein Vorgeschmack auf Entwicklungen, die noch kommen.

If you've been trying to figure out DSPy - the automatic prompt optimization system - this talk by @dbreunig is the clearest explanation I've seen yet, with a very useful real-world case study https://t.co/w6uXcGshwI

My notes here: https://t.co/ZNjVagRa7e
— Simon Willison (@simonw) October 4, 2025

Simon Willison, dessen technische Analysen ich sehr schätze, bezeichnet Breunigs Vortrag als die beste Erklärung von DSPy, die er je gehört hat. Seine Notizen sind, wie immer, präzise und erhellend – Pflichtlektüre für jeden, der tiefer eintauchen möchte.

Per data ad veritatem – durch Daten zur Wahrheit

Die entscheidende Frage ist nicht, ob automatisiertes Prompting manuelle Ansätze ersetzen wird. Die Frage ist, wie schnell wir bereit sind, Kontrolle zugunsten von Effizienz abzugeben. Denn das ist der Trade-off: weniger granulare Steuerung, dafür mehr systematische Optimierung.

Morgen gibt es ein besseres Modell. Übermorgen ein noch besseres. Verschwende keine Stunden damit, Prompts zu perfektionieren, die nächste Woche obsolet sind. Definiere Tasks, nicht Textstrings. Navigiere durch Abstraktion, nicht durch Mikromanagement.

Die Wellen des technologischen Wandels werden schneller, höher, unvorhersehbarer. DSPy bietet uns nicht die Kontrolle über diese Wellen – aber ein stabileres Schiff, um sie zu durchqueren.

Per fluctus ad astra – durch die Wellen zu den Sternen. Und manchmal bedeutet das, die Navigation dem zu überlassen, das besser navigiert als wir selbst.

Über The Digioneer: Wir bereiten dich auf die digitale Zukunft vor. Parallel betreiben wir die digitalworld Academy mit Schwerpunkten in KI Management, Digital Marketing und – für die, die auch unter der Oberfläche navigieren – Underwater Filmmaking. Denn manchmal muss man tief tauchen, um die Strömungen zu verstehen.

Weiterführende Ressourcen: