PROMPTING · AI-KONZEPT
Prompt-Engineering: Grundlagen, Muster, Anti-Patterns
System-Prompt, Few-Shot, strukturierte Outputs, Refusal-Pattern. Was im Mai 2026 noch zählt – und was die Modelle inzwischen intern erledigen.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Prompt-Engineering?
Prompt-Engineering ist die Praxis, einem Sprachmodell die Aufgabe so zu beschreiben, dass die Antwort verlässlich nützlich ist. Mai 2026 ist das eine andere Disziplin als noch 2023. Modelle wie das aktuelle Claude-Spitzenmodell, GPT-4o, Gemini 2.5 und Mistral Large 2 können viele früher nötigen Tricks intern. Chain-of-Thought, Self-Consistency und Tree-of-Thoughts sind heute weniger Prompt-Pattern als Modell-Feature – die Modelle entscheiden selbst, wann sie schrittweise denken müssen.
Was bleibt: ein klar strukturierter Prompt liefert schnellere, billigere und reproduzierbarere Antworten. Wer ein 50-Wort-Prompt schreibt, bekommt eine 50-Wort-Antwort plus Halluzinationen. Wer ein 500-Wort-Prompt mit System-Rolle, Beispielen, Format-Vorgabe und Refusal-Klausel schreibt, bekommt eine 50-Wort-Antwort plus die Zitate plus einen klaren „weiss ich nicht" wenn die Daten fehlen.
Für Treuhand- und Anwaltsbüros ist Prompt-Engineering keine Spielwiese. Es ist Teil der KI-Governance: Welche Prompts laufen in Produktion? Wer hat sie geprüft? Wie verhindert man Prompt-Leaking? Diese Fragen gehören in das AI-Audit-Trail-Design (siehe verwandter Artikel).
Warum es wichtig ist
Der Prompt ist die Schnittstelle zwischen Mensch und Sprachmodell. Schlechte Prompts kosten dreifach: höhere Token-Rechnungen (mehr Hin und Her bis zur brauchbaren Antwort), schlechtere Qualität (Halluzinationen wegen unklarer Anweisung), juristisches Risiko (kein Refusal-Pattern → das Modell erfindet Rechtsauskuenfte).
Die Kosten sind real. OpenAI rechnet pro Token. Ein nicht-optimierter Prompt für eine MWST-Frage kann 4.000 Tokens Input + 2.000 Output erzeugen – bei GPT-4o sind das rund 0.03 USD. Ein optimierter Prompt liefert dieselbe Antwort mit 1.500 Input + 500 Output = 0.008 USD. Bei 5.000 Anfragen pro Monat ist das ein Unterschied von 110 USD vs. 40 USD – pro Mandant.
Die juristische Dimension wiegt schwerer. Eine KMU-Treuhänderin, die ein KI-System ihren Mandanten als „Antwort-Assistent" anbietet, haftet für Fehlinformationen. Wenn das System ohne klares Refusal-Pattern arbeitet und eine erfundene Steuerregel ausgibt, ist die Haftung nicht beim Modellanbieter – sondern beim System-Betreiber (siehe Art. 41 OR, Aufklärungspflicht).
Die Bauteile eines Production-Prompts
System-Prompt vs. User-Prompt: Der System-Prompt definiert Rolle, Verhalten, Format. Er wird einmal gesetzt und bleibt für die ganze Konversation. Der User-Prompt enthält die konkrete Frage. Trennung ist wichtig: bei OpenAI und Anthropic werden System-Prompts vom Modell unterschiedlich gewichtet als User-Prompts und sind weniger anfällig für Prompt-Injection.
Few-Shot vs. Zero-Shot: Zero-Shot heisst, das Modell bekommt nur die Aufgabe. Few-Shot heisst, der Prompt enthält 2–5 Beispiele („Eingabe X → Ausgabe Y"). Few-Shot verbessert Präzision bei strukturierten Outputs deutlich. Mai 2026 nützt es vor allem bei Klassifikations- und Extraktions-Aufgaben; bei freien Antworten ist Zero-Shot mit guter Anweisung oft gleich gut.
Chain-of-Thought (CoT): explizite Anweisung „Denke Schritt für Schritt" oder „Begründe deine Antwort, bevor du sie gibst". Früher essentiell, heute meist redundant – das aktuelle Claude-Spitzenmodell und GPT-4o tun das von selbst, wenn die Aufgabe Reasoning braucht. Wo CoT noch hilft: explizite Audit-Logs bei Steuer- oder Rechtsfragen, wo der Rechenweg dokumentiert sein soll.
Strukturierte Outputs: JSON-Mode bei OpenAI (response_format: {type: "json_schema"}), Tool-/Function-Calling bei Anthropic. Beide zwingen das Modell, in einem definierten Schema zu antworten. Das ist Pflicht für alles, was nachgelagert verarbeitet wird – Belegerkennung, E-Mail-Klassifikation, MWST-Triage. Ohne strukturierten Output muss man die Antwort parsen, was bei freitext-Antworten oft scheitert.
Refusal-Pattern: explizite Anweisung „Wenn die Antwort nicht in den gegebenen Quellen steht, antworte mit -nicht im Material-" – Sicherheitsnetz gegen Halluzinationen. Pflicht in jedem RAG-Setup unter Berufsgeheimnis. Anthropic-Modelle reagieren besonders gut auf solche Refusal-Klauseln.
Citation-Required: „Zitiere jede Aussage mit [1], [2] und liste die Quellen am Ende" – macht die Antwort revisionsfähig. Funktioniert bei allen modernen Modellen, ist aber kein Allheilmittel: ein Citation-Check-Schritt nach der Generierung verifiziert, dass die zitierten Quellen tatsächlich im Retrieval-Resultat waren.
Production-Prompt in 6 Schritten
- 01Aufgabe präzise formulieren: was ist Input, was ist erwartetes Output-Format, welche Refusal-Fälle gibt es?
- 02Test-Satz erstellen: 20–50 reale Beispiele mit erwartetem Ergebnis. Ohne Test-Satz ist alles Weitere Glaube statt Messung.
- 03Baseline-Prompt schreiben: System-Prompt (Rolle, Verhalten, Format) + User-Prompt-Template (Variablen-Slot). Strukturierten Output (JSON-Schema) erzwingen, wo nachgelagert verarbeitet wird.
- 04Refusal-Klausel einbauen: „Wenn die Antwort nicht in den gegebenen Quellen steht, antworte exakt mit -nicht im Material-."
- 05Few-Shot-Beispiele hinzufügen, falls Baseline unter 80% Genauigkeit liegt. 3–5 Beispiele reichen meist; mehr verbrennt Tokens ohne Gewinn.
- 06Gegen Test-Satz iterieren: ändern, messen, wiederholen. Erst bei stabil > 90% in Production deployen. Prompts versionieren wie Code (git).
Wann Prompt-Engineering investieren
Bei jedem Production-Prompt. Production heisst: der Prompt wird mehr als 100x am Tag ausgeführt, von Mandanten gesehen oder für Entscheidungen genutzt. Bei einmaligen Recherche-Prompts („Erklär mir kurz die GwG-Revision") ist die Investition übertrieben – direkt fragen reicht.
Für ein Treuhand-KMU sind drei Prompt-Kategorien typischerweise lohnend zu optimieren: (a) der RAG-Antwort-Prompt für Mandantenfragen (läuft hunderte Male am Tag), (b) der E-Mail-Klassifikations-Prompt (Lohn, Steuer, Mahnung, Sonstiges), (c) der Beleg-Extraktions-Prompt (Datum, Betrag, MWST-Satz, Lieferant). Diese drei zusammen machen typischerweise 80% des Token-Verbrauchs aus.
Gutes Vorgehen: zuerst eine messbare Aufgabe definieren („extrahiere bei 100 Test-Belegen alle vier Felder korrekt"), dann den Prompt schrittweise optimieren und gegen den Test-Satz validieren. Ohne Test-Satz ist Prompt-Engineering Aberglaube.
Wann Prompt-Engineering überzogen ist
Wenn die Aufgabe einfach ist und das Modell sie ohne Sonderbehandlung löst, ist jede zusätzliche Prompt-Komplexität kontraproduktiv. Modelle 2026 sind so gut geworden, dass ein klarer Ein-Satz-Prompt für viele Aufgaben reicht. Wer dem Modell „du bist Senior-Steuerexperte mit 30 Jahren Erfahrung" sagt, schadet eher als hilft – solche Rollen-Tricks waren 2023 wichtig, sind heute Geräusch.
Auch nicht jedes Problem ist ein Prompt-Problem. Wenn ein Modell falsche MWST-Sätze nennt, hilft kein noch so guter Prompt – die Lösung ist RAG mit aktueller MWST-Verordnung. Wenn ein Modell mehrsprachig schlecht antwortet, hilft keine Anweisung – die Lösung ist ein besseres Embedding-Modell oder ein stärkeres Generator-Modell (Claude Opus statt Haiku). Vor jedem Prompt-Tuning steht die Frage: ist das überhaupt das richtige Werkzeug?
Vor- und Nachteile
STÄRKEN
- Bessere Prompts sparen 50–70% Token-Kosten bei gleicher Qualität
- Strukturierte Outputs ermöglichen direkte Weiterverarbeitung ohne Parsing
- Refusal-Patterns reduzieren Halluzinationen messbar
- Versionierte Prompts sind audit- und compliance-fähig (ISO 42001)
SCHWÄCHEN
- Modell-spezifisch: ein Claude-Prompt ist nicht 1:1 GPT-tauglich
- Modell-Updates können Prompts brechen – kontinuierliche Test-Sets nötig
- Overprompting (zu viele Anweisungen) verschlechtert Qualität – Trade-off nicht trivial
- Prompt-Engineering allein löst keine Datenprobleme (RAG, Embedding, Modellwahl)
Häufige Fragen
Was ist Prompt-Leaking und wie schütze ich mich?
Prompt-Leaking heisst: ein Endnutzer bringt das Modell dazu, den System-Prompt im Klartext auszugeben. Damit liegen interne Anweisungen, Refusal-Regeln und manchmal Geschäftslogik offen. Drei Massnahmen: (a) keine geheimen Daten in den Prompt schreiben (Passwörter, interne Margenrechnungen), (b) System-Prompt-Inhalte als „nicht ausgeben, nicht zitieren" markieren, (c) eine separate Output-Filter-Stufe, die Antworten mit System-Prompt-Fragmenten blockiert. Eliminieren lässt sich Leaking nicht vollständig.
Soll ich Markdown oder XML in Prompts nutzen?
Anthropic-Modelle reagieren stark auf XML-Tags (`<context>...</context>`, `<question>...</question>`) – das ist explizit in Anthropics Prompting-Guide empfohlen. OpenAI-Modelle sind weniger XML-empfindlich; dort funktioniert Markdown (## Headers, **bold**, Listen) genauso gut. Praxis-Tipp: bei Claude XML, bei GPT Markdown. Beide vertragen aber das jeweils andere ohne signifikanten Qualitätsverlust.
Wie versioniere ich Prompts in Produktion?
Wie Code. Prompts gehören in Git, nicht in eine Datenbank-Spalte. Eine bewährte Struktur: ein Verzeichnis prompts/ mit einer Datei pro Prompt (z.B. prompts/mwst_triage_v3.md), Änderungen via Pull-Request, jede Production-Version mit semver-Tag. Tools wie Langfuse, PromptLayer oder Helicone tracken zusätzlich Performance-Metriken pro Prompt-Version. Damit ist nachvollziehbar, welche Version wann lief und wie sie sich entwickelt hat.
Wie lang darf ein Prompt sein?
Technisch erlauben Modelle 200k bis 2M Tokens Context (Gemini 2.5 ist Spitzenreiter). Praktisch wird die Antwortqualität ab 32k Tokens schon schlechter – das ist die „lost in the middle"-Phänomen: Inhalte in der Prompt-Mitte werden weniger zuverlässig verarbeitet. Faustregel: System-Prompt unter 1.500 Tokens, gesamter Prompt mit Retrieval-Kontext unter 16.000 Tokens. Wer mehr braucht, sollte zuerst Retrieval verbessern, nicht Prompt verlängern.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?