fairlane.systems

LLM-GRUNDLAGEN · AI-KONZEPT

Wie funktioniert ein LLM? Autocomplete auf Steroiden, erklärt für KMU Mai 2026

Ein Sprachmodell sagt das wahrscheinlich nächste Wortteil voraus. Erklärung in fünf Stationen: Tokenisierung, Embedding, Transformer, Logits, Sampling – ohne Mathematik.

Recherche & Faktencheck: · Stand: 2026-05

Was ist ein LLM überhaupt?

Ein Large Language Model, kurz LLM, ist im Kern eine sehr grosse Wahrscheinlichkeits-Funktion. Sie nimmt einen Text-Anfang entgegen und schätzt, welches Wortteil mit welcher Wahrscheinlichkeit als nächstes folgt. Das ist die ganze Magie – wiederholt millionenmal pro Antwort.

Die nuechterne Analogie: Autocomplete auf Steroiden. Ihr Smartphone schlägt beim Tippen die nächsten drei Worter vor. Ein LLM tut technisch dasselbe, nur dass es nicht aus Ihrem persönlichen Tippverlauf lernt, sondern aus Billionen Tokens Internet-, Buch- und Code-Text. Es schreibt die wahrscheinliche Fortsetzung, Token für Token. Wenn die Eingabe lautet "Sehr geehrte Damen und", schätzt das Modell, dass "Herren" mit hoher Wahrscheinlichkeit folgt, "Kollegen" mit mittlerer, "Männer" mit sehr niedriger.

Wichtig für das Geschäftsverständnis: ein LLM versteht nicht, es schätzt. Es hat kein Welt-Modell, keine Absicht, keine Erinnerung an die Anfrage von gestern. Was wie Verstehen aussieht, ist statistisches Echo seiner Trainingsdaten. Diese Tatsache erklärt sowohl die Stärken (sprachlich flüssig, oft thematisch passend) als auch die Schwächen (halluziniert mit voller Überzeugung, kann Fakten verwechseln).

Mai 2026 sind die wichtigsten Vertreter das aktuelle Claude-Spitzenmodell (Anthropic), das jeweils aktuelle GPT-Spitzenmodell und GPT-4.1 (OpenAI), Gemini 2.5 Pro (Google), Llama 4 Maverick (Meta), eine kommende Mistral-Large-Generation (Mistral) und die aktuelle DeepSeek-V-Generation (DeepSeek). Alle teilen dieselbe Grund-Architektur – Transformer mit Self-Attention – und unterscheiden sich vor allem in Grösse, Trainings-Daten, Tokenizer und Feintuning. Für eine Treuhand-Geschäftsführung ist die Architektur weniger wichtig als die Konsequenzen: was kann ein LLM verlässlich, wo halluziniert es, was kostet es pro Anfrage.

Warum die Mechanik wichtig ist

Wer das Innenleben eines LLMs grob versteht, trifft bessere Geschäfts-Entscheidungen. Drei Punkte sind für Treuhand- und KMU-Verantwortliche entscheidend.

Erstens: das Modell rechnet auf Wahrscheinlichkeit, nicht auf Wahrheit. Wenn das Trainingsmaterial fehlerhaft ist oder ein Thema nur dünn abdeckt, schätzt das Modell trotzdem die "wahrscheinliche" Antwort – und liegt daneben. Mai 2026 ist das in Steuer-Detailfragen, in Datums-Angaben und in Quoten-Berechnungen weiterhin sichtbar. Wer eine MWST-Quote von einem rohen Sprachmodell holt, ohne RAG oder Tool-Use, geht ein Fehlerrisiko ein. Das ist nicht ein "Bug, der gefixt werden wird", sondern eine Konsequenz der Mechanik.

Zweitens: Stück-für-Stück-Generierung erklärt Latenz und Kosten. Das Modell produziert die Antwort Token für Token, autoregressiv. Eine 600-Token-Antwort kostet etwa 3-12 Sekunden Generierungs-Zeit, je nach Anbieter und Lastniveau. Das ist nicht beschleunigbar durch "schnellere Server" – die Token-Reihenfolge ist sequenziell vorgegeben. Wer Echtzeit-Antworten will (z.B. Voice-Bot), muss Antwort-Länge begrenzen oder Streaming nutzen.

Drittens: das Kontextfenster ist endlich. Das Modell kann nicht "alles zur Mandanten-Akte" gleichzeitig im Blick haben. Mai 2026 reichen die Standard-Kontextfenster von 128.000 bis 2.000.000 Tokens – viel, aber nicht unendlich. Ein zu langer Kontext senkt Antwort-Qualität (Lost-in-the-Middle-Effekt) und steigert Kosten linear. RAG (siehe retrieval-augmented-generation) ist die richtige Antwort für grosse Wissensbasen, nicht "noch mehr in den Prompt stopfen".

Für die Geschäftsführung praktisch wichtig: ein LLM ist kein Datenbank-Ersatz, kein Buchhalter, kein Anwalt. Es ist ein Sprachgenerator, der mit dem richtigen Beiwerk (RAG, Tool-Use, Audit-Log, Refusal-Prompt) zu einem zuverlässigen Mitarbeiter wird. Die Architektur erklärt, warum dieses Beiwerk nötig ist – und kein "wir nutzen einfach ChatGPT" ausreicht.

Fünf Stationen einer LLM-Antwort

Vom Knopfdruck bis zur fertigen Antwort durchläuft eine Anfrage fünf Stationen. Jede ist gut erklärbar ohne Mathematik.

Station 1: Tokenisierung. Der Eingabetext wird in Tokens zerlegt – kleine Wortteile, typisch 3-5 Zeichen. Ein deutsches "Mandantenanfrage" wird zum Beispiel zu "Mand", "ant", "en", "anfrage" – vier Tokens. Diese Tokens sind die Bausteine für alles weitere. Jedes Modell hat einen eigenen Tokenizer; was bei OpenAI 80 Tokens kostet, kann bei Claude 75 oder 85 sein. Siehe was-ist-token für Details.

Station 2: Embedding. Jedes Token wird in einen Vektor verwandelt – eine Liste von typisch 4096-12288 Zahlen (Mai 2026 Stand für grosse Modelle). Ähnliche Tokens landen im Raum nahe beieinander: "Mandant" und "Klient" haben Vektoren, die sehr ähnlich sind, "Mandant" und "Pizza" haben Vektoren, die weit auseinander liegen. Diese Vektoren sind das, was das Modell intern wirklich "sieht".

Station 3: Transformer-Layers. Die Vektoren durchlaufen 32-128 sogenannte Transformer-Schichten (Mai 2026 typisch 60-100 für Top-Modelle). Jede Schicht hat zwei Hauptkomponenten: Self-Attention (das Modell "schaut" auf alle anderen Tokens der Eingabe, um den Kontext zu verstehen) und Feedforward-Network (rechnet Zwischenresultate). Self-Attention ist der Kern; siehe was-ist-attention-mechanismus für das Detail. Nach allen Schichten hat das Modell für jede Position einen "verstandenen" Vektor – durchsetzt mit Kontext, Grammatik und Sachwissen aus dem Training.

Station 4: Logits. Aus dem letzten Vektor berechnet das Modell für jeden möglichen nächsten Token eine Punktzahl. Bei einem Vokabular von 100.000 Tokens sind das 100.000 Punktzahlen – "Logits" genannt. Hohe Punktzahl = wahrscheinliche Fortsetzung, niedrige = unwahrscheinliche. Diese Punktzahlen werden durch die Softmax-Funktion in Wahrscheinlichkeiten umgerechnet (alle zusammen ergeben 100%).

Station 5: Sampling. Aus der Wahrscheinlichkeits-Verteilung wird ein konkreter Token gewählt. Drei Strategien sind üblich: Greedy (immer der wahrscheinlichste), Temperature (zufällig gewichtet mit Streckungs-Parameter, siehe was-ist-temperature-top-p), Top-P (nur die kumulativ wahrscheinlichsten betrachten). Mai 2026 Standard für Business-Anwendungen: Temperature 0.3-0.7. Niedrig = deterministischer, hoch = kreativer.

Dieser Zyklus (Embedding → Transformer → Logits → Sampling) wiederholt sich für JEDES Output-Token. Eine 600-Token-Antwort durchläuft den Zyklus 600 Mal. Das erklärt, warum die Generierung sequenziell ist und warum Output-Tokens 3-5x teurer abgerechnet werden als Input-Tokens – der Rechenaufwand pro Output-Token ist erheblich höher.

LLM verstehen in 5 Schritten

  1. 01Akzeptieren Sie das Grundprinzip: ein LLM sagt das wahrscheinliche nächste Wortteil voraus – kein Verstehen, kein Welt-Modell, kein Gedächtnis über Anfragen hinweg.
  2. 02Trennen Sie die fünf Stationen mental: Tokenisierung, Embedding, Transformer, Logits, Sampling. Jede hat eigene Kosten und Stellschrauben.
  3. 03Prüfen Sie pro Anwendungsfall: braucht die Aufgabe Sprache (ja → LLM) oder exakte Rechnung (nein → Tool-Use oder Regelwerk)?
  4. 04Schätzen Sie Token-Volumen und Kosten pro Anfrage: Eingabe-Tokens mal Input-Preis plus Ausgabe-Tokens mal Output-Preis. Mai 2026 typisch CHF 0.001-0.05 pro Mandanten-Antwort.
  5. 05Sichern Sie kritische Antworten mit Beiwerk: RAG für Quellen-Belege, Tool-Use für Rechnung, Audit-Log für Nachvollziehbarkeit, Refusal-Prompt gegen Halluzination.

Wann ein LLM die richtige Wahl ist

Ein LLM ist die richtige Wahl, wenn die Aufgabe natürliche Sprache produzieren oder verstehen muss, wenn die Antwort nicht 100% exakt sein muss (oder durch RAG abgesichert wird) und wenn der Wert der Antwort die Token-Kosten überschreitet.

Konkrete KMU-Anwendungen Mai 2026: Mandanten-Anfragen erstklären und vorrouten (siehe ai-mandantenanfragen), Email-Triage und Antwort-Entwürfe, Mahnschreiben generieren, Vertragsklauseln vergleichen, Belegerkennung mit Vision-LLM (siehe ai-belegerkennung-ocr), Sitzungs-Protokolle aus Aufnahmen zusammenfassen, mehrsprachige Antworten generieren (DE/FR/IT/EN). In all diesen Fällen ist das Modell ein Produktivitäts-Hebel: ein Treuhand-Mitarbeitender erledigt mit LLM-Unterstützung 2-5x mehr Anfragen pro Stunde bei vergleichbarer Qualität.

Für beweispflichtige Aufgaben (Steuer-Detailantwort, Gesetzes-Zitat, Buchhaltungs-Buchung) ist ein LLM nur dann richtig, wenn es mit RAG (Quellen-Anbindung) und Tool-Use (Rechner, Datenbank-Abfrage) ergänzt wird. Ein rohes LLM darf in einem Treuhand-Workflow nie ohne Sicherheitsnetz "letzte Antwort" sein.

Wann ein LLM NICHT die richtige Wahl ist

Drei Fälle, in denen ein LLM die falsche Wahl ist.

Erstens: exakte numerische Berechnungen ohne Tool-Use. Ein LLM kann "3.45 mal 27 plus MWST 7.7%" oft korrekt rechnen – aber nicht zuverlässig. Mai 2026 liegen LLMs in komplexen mehrstufigen Rechnungen typisch in 5-15% der Fälle daneben. Für Buchhaltungs-Buchungen, MWST-Quoten oder Steuer-Berechnung MUSS ein Taschenrechner-Tool angebunden sein (Tool-Use, Funktion-Calling, siehe was-ist-tool-use-function-calling), nicht der rohe Sprachgenerator.

Zweitens: deterministische Regel-Anwendung. Wenn die Aufgabe lautet "wenn Belegsumme grösser als CHF 1000, dann Prüfung", ist ein simples if-then-Regelwerk in der Buchhaltungs-Software billiger, schneller und 100% korrekt. LLM bringt hier keinen Mehrwert, kostet aber Tokens und kann zufällig anders entscheiden.

Drittens: hochsensible Daten ohne Compliance-Architektur. Wer Mandanten-Akten mit Berufsgeheimnis (StGB Art. 321) über ein US-Modell ohne Datenresidenz-Vertrag schickt, riskiert eine Strafanzeige. Erst die Compliance-Achitektur klären (siehe dsgvo-und-llms, berufsgeheimnis-stgb-321-ki), dann das Modell wählen – nicht umgekehrt.

Weitere Fallen: Aufgaben mit harten Reproduzierbarkeits-Anforderungen (z.B. "dieselbe Eingabe muss immer denselben Output produzieren") sind bei nicht-deterministischen Sampling-Strategien problematisch – Temperature 0 hilft, garantiert aber bei manchen Anbietern keine bit-exakte Reproduzierbarkeit. Und: ein LLM ist kein Suchindex. Wer "alle Verträge mit Klausel X" sucht, braucht eine Datenbank-Abfrage oder einen Vektor-Index, kein LLM-Prompt mit der ganzen Vertrags-Sammlung im Kontext.

Vor- und Nachteile

STÄRKEN

  • Universal-Werkzeug für Sprach-Aufgaben – verstehen, generieren, übersetzen, zusammenfassen
  • Pay-per-Token: kein Fixkosten-Block, skaliert mit der Nutzung
  • Mehrsprachig out-of-the-box (DE/FR/IT/EN bei allen Top-Modellen)
  • Mai 2026 reife API-Ökosysteme mit Audit-Log, RAG, Tool-Use

SCHWÄCHEN

  • Halluziniert ohne Sicherheitsnetz – nicht für beweispflichtige Antworten ohne RAG
  • Output-Latenz 3-12 Sekunden, sequenziell, nicht parallelisierbar
  • Kosten skalieren linear mit Volumen – keine Mengen-Magie
  • Verstehen ist Statistik-Echo, kein Welt-Modell – Grenzen in Mehrstufen-Logik

Häufige Fragen

Versteht ein LLM wirklich, was es liest?

Nein, nicht im menschlichen Sinn. Es schätzt sehr gut, welche Antwort statistisch zu einer Eingabe passt – das wirkt wie Verstehen. Mai 2026 gibt es weiterhin keine wissenschaftliche Einigkeit, ob LLMs eine schwache Form von Verstehen entwickeln. Für Geschäfts-Anwendungen ist die Praxisregel: behandeln Sie das Modell als sehr versierten Praktikanten, nicht als verantwortlichen Senior. Antworten überprüfen, kritische Entscheidungen nicht alleine vom Modell fällen lassen.

Warum sind LLMs so teuer im Output?

Weil jede Output-Token einen kompletten Durchlauf durch alle Transformer-Schichten erfordert. Bei 80-100 Schichten und einem 70-Milliarden-Parameter-Modell sind das pro Token sehr viele Rechenoperationen. Input-Tokens werden parallel verarbeitet, Output-Tokens sequenziell – das macht Output 3-5x teurer. Mai 2026: Claude Sonnet USD 3 Input / USD 15 Output pro Million Tokens, das jeweils aktuelle GPT-Spitzenmodell USD 5 / USD 25.

Brauche ich ein eigenes Modell?

Mai 2026 für 95% der KMU: nein. Das Training eines eigenen Modells (from scratch) kostet USD 50-500 Millionen und braucht ein Team aus 30+ Spezialisten. Fine-Tuning eines bestehenden Open-Source-Modells (Llama 4, Mistral) ist machbar ab CHF 5-50k und passt das Modell an Ihren Sprachstil oder Fach-Vokabular an. Für die meisten Anwendungen reicht ein API-Modell (Claude, GPT, Gemini) plus RAG (siehe was-ist-fine-tuning-vs-rag).

Warum halluzinieren LLMs?

Weil sie auf Wahrscheinlichkeit, nicht auf Wahrheit, optimiert sind. Wenn das Modell zu einer Frage keine starke Evidenz im Training-Echo hat, schätzt es trotzdem die plausibel klingende Antwort – auch wenn diese frei erfunden ist. Gegenmittel: RAG (Quellen-Bindung), Refusal-Prompt ("Wenn unbekannt, sage es"), Citation-Checks, niedrige Temperature. Halluzination wird Mai 2026 weniger, aber nicht null.

Verwandte Themen

TOKEN · AI-KONZEPTWas ist ein Token? Tokenizer, Kosten, DE-vs-EN Mai 2026ATTENTION · AI-KONZEPTWas ist der Attention-Mechanismus? Query, Key, Value erklärt Mai 2026TRANSFORMER · AI-KONZEPTWas ist die Transformer-Architektur? Grundlagen, Varianten, Marktstand Mai 2026CONTEXT WINDOW · AI-KONZEPTWas ist das Context Window? Token-Limit, Kosten, Recall-Kurve Mai 2026RAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetTEMPERATURE / TOP-P · AI-KONZEPTWas sind Temperature und Top-p? LLM-Sampling-Parameter erklärt Mai 2026HALLUZINATIONEN · AI-KONZEPTHalluzinationen begrenzen: Fünf Gegenmittel gegen erfundene KI-Antworten

Quellen

  1. Vaswani et al. – Attention Is All You Need (arXiv:1706.03762, Transformer-Originalpaper) · 2017-06
  2. Anthropic – the current top Claude model Model Card and Architecture Overview · 2026-05
  3. OpenAI – the current top GPT model Technical Report and Pricing · 2026-04
  4. Stanford CRFM – Foundation Model Transparency Index 2026 · 2026-03
  5. Hugging Face – Open LLM Leaderboard v3 · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen