PRETRAINING · AI-KONZEPT
Was ist Pretraining? Wie ein LLM seine Grundfähigkeit lernt Mai 2026
Pretraining ist die Selbstlern-Phase, in der ein Sprachmodell Sprache, Grammatik und Faktenwissen aus 10-15 Billionen Tokens Text aufnimmt. Erklärt: Daten-Quellen, Cutoff, Kosten.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Pretraining?
Pretraining ist die erste und teuerste Phase im Lebenszyklus eines Sprachmodells. In dieser Phase liest das Modell Milliarden Texte und lernt, das wahrscheinliche nächste Wortteil vorherzusagen. Aus dieser einen Lern-Aufgabe – "predict the next token" – ergibt sich indirekt alles: Grammatik, Sachwissen, Sprache, Programmier-Kenntnisse, Argumentations-Muster. Das ist die zentrale Einsicht der LLM-Aera: ein einziges, simples Trainings-Signal reicht, wenn die Datenmenge gross genug ist.
Das Verfahren heisst Self-Supervised Learning. Niemand muss die Trainings-Daten manuell beschriften. Jedes Wort in jedem Satz ist sein eigenes Label: das Modell sieht die Worter davor und muss das aktuelle vorhersagen. Stimmt die Vorhersage, ist das Modell zufrieden; stimmt sie nicht, passt es seine internen Parameter (Gewichte) an. Bei 10-15 Billionen Tokens Trainings-Daten und 70-700 Milliarden Parametern ergibt das Trillionen einzelner Lern-Schritte.
Mai 2026 ist Pretraining ein Spiel für Tech-Giganten. Realistische Trainings-Kosten für Frontier-Modelle: Llama 3.1-405B (Juli 2024) USD 60-100 Millionen GPU-Zeit; das jeweils aktuelle GPT-Spitzenmodell (Anfang 2026) USD 300-500 Millionen geschätzt; Gemini 2.5 Pro ebenfalls in der USD 200-Millionen-Klasse. Diese Zahlen umfassen nicht Forschung, Daten-Beschaffung und Compliance – Vollkosten liegen typisch beim Doppelten. Für ein KMU ist Pretraining damit ausser Reichweite. Wer "eigenes Modell" haben will, denkt an Fine-Tuning (siehe wie-trainiert-man-eigenes-modell), nicht an Pretraining.
Nach dem Pretraining ist das Modell ein "Base Model" – sprachfähig, aber ungezügelt. Es vervollständigt jeden Text, ohne zu wissen, was eine Frage und was eine Anweisung ist. Die Verwandlung zum hilfsbereiten Assistenten erfolgt in der nächsten Phase, dem Instruction-Tuning und RLHF (siehe was-ist-rlhf).
Warum Pretraining für KMU wichtig ist
Auch ohne selbst je ein Modell zu trainieren, treffen Pretraining-Entscheidungen Ihren Treuhand- oder KMU-Alltag direkt. Drei Konsequenzen.
Erstens: das Cutoff-Datum. Pretraining endet zu einem festen Stichtag. Alle Welt-Ereignisse, Gesetzes-Änderungen und Kursdaten DANACH kennt das Modell nicht. Mai 2026: das aktuelle Claude-Spitzenmodell Cutoff Januar 2026, das jeweils aktuelle GPT-Spitzenmodell Cutoff Oktober 2025, Gemini 2.5 Pro Cutoff Dezember 2025. Wer das Modell zur revidierten MWST-Verordnung 2027 fragt, bekommt entweder eine veraltete Antwort oder eine halluzinierte. Konsequenz: zeitkritische Faktenfragen müssen über RAG (eigene Wissensbasis), Web-Search-Tool oder Tool-Use abgesichert werden, nicht aus dem Modell-Gedächtnis.
Zweitens: das Trainings-Material formt den Bias. Mai 2026 überwiegt englischsprachiges Material – Schätzungen für Llama 3.1: 89% Englisch, 1.8% Deutsch, 1.6% Französisch. Konsequenz: Deutsch-Antworten sind tendenziell schwächer als Englisch-Antworten – typisch 5-15% Qualitäts-Differenz in unabhängigen Benchmarks (HELM, MMMLU, MEGA). Wer höchste Qualität im Deutschen will, prüft die aktuelle DeepSeek-V-Generation, eine kommende Mistral-Large-Generation oder Gemini 2.5 Pro (alle mit relativ hohem DE-Anteil im Pretraining).
Drittens: Daten-Compliance ist eine offene Wunde. Pretraining-Daten enthalten CommonCrawl (Webscrape ohne Einwilligung), GitHub-Code (mit Lizenz-Konflikten), eventuell auch Bücher (Klagen-Lawine 2023-2026 in den USA und EU). Mai 2026 ist die rechtliche Lage in Deutschland und der Schweiz im Fluss: die EU AI Act fordert "Trainings-Daten-Zusammenfassung" als verpflichtende Transparenz, das Urheberrechts-Reform-Paket wird 2026/27 erwartet. Für KMU-Nutzer praktisch: dokumentieren Sie, welches Modell Sie nutzen und welche Compliance-Zusagen der Anbieter macht. Anbieter mit klarer Pretraining-Dokumentation (Mistral, Anthropic, Cohere) sind Mai 2026 im Vorteil gegenüber Anbietern mit unklarer Daten-Herkunft.
Strategische Konsequenz. Pretraining ist die Grenze dessen, was ein Modell überhaupt KÖNNTE – Fine-Tuning kann nur in diesem Rahmen schärfen. Wer beim Modell-Wahl-Prozess die Pretraining-Daten-Mischung übersieht (Anteil DE/FR/IT, Code-Anteil, Cutoff-Datum), wählt im Blindflug.
Pretraining im Detail
Ein vollständiger Pretraining-Lauf zerfällt in vier Phasen: Daten-Beschaffung, Daten-Reinigung, Training, Evaluation.
Phase 1: Daten-Beschaffung. Mai 2026 sind die Standard-Quellen: CommonCrawl (5-7 Billionen Tokens Webtext, 200+ Sprachen, gefiltert), Github (1-2 Billionen Tokens Code, alle gängigen Sprachen), ArXiv (200-400 Milliarden Tokens wissenschaftlicher Aufsätze), Wikipedia (40-80 Milliarden Tokens enzyklopaedisch), Buchscans (300-700 Milliarden Tokens, hochwertig aber lizenz-konfliktreich), Stack Exchange (100-200 Milliarden Tokens Q&A), Reddit (300-500 Milliarden Tokens Dialog, gefiltert nach Subreddit-Qualität). Total typisch 10-15 Billionen Tokens nach Deduplizierung – entspricht ca. 50 Millionen Büchern.
Phase 2: Daten-Reinigung. Aus den Rohdaten wird das tatsächliche Trainings-Korpus destilliert. Schritte: Sprache-Detektion (verwirft Texte falscher Sprachen), Qualitäts-Filter (entfernt SEO-Spam, Boilerplate, Auto-generierten Text), Toxizitäts-Filter (entfernt Hate-Speech, Gewalt-Beschreibung), PII-Filter (entfernt persönlich identifizierbare Daten), Dedupliziertion (entfernt Duplikate, die das Modell überanpassen würden), Decontamination (entfernt Texte, die in Test-Benchmarks enthalten sind). Aus 50-100 Billionen rohen Crawl-Tokens werden 10-15 Billionen Trainings-Tokens. Datenqualität schlägt Datenmenge – das ist die Lektion 2023-2026 in unzähligen Ablations-Studien (Llama 3 Paper, Mistral-Berichte, DeepSeek-Paper).
Phase 3: Training. Ein Cluster aus 10.000-32.000 H100 oder H200 GPUs verarbeitet den Korpus über 2-4 Monate. Pro GPU-Stunde kostet das auf Hyperscaler-Cloud USD 2-6 (Mai 2026); im eigenen Datacenter (Meta, Microsoft, Google) etwa USD 0.8-2. Das Training läuft autoregressiv: das Modell sieht 4000-32000 Tokens Kontext, sagt das nächste Token vorher, vergleicht mit der Wahrheit, passt Parameter an. Diese Schleife läuft über alle 10-15 Billionen Tokens, typisch in 1-2 Durchgängen (Epochen). Hardware-Anforderung für Llama 3.1-405B: 16.000 H100-GPUs über 54 Tage, etwa USD 60 Millionen reine Rechenkosten (Meta, Juli 2024 Bericht).
Phase 4: Evaluation. Bevor das Modell veröffentlicht wird, durchläuft es Benchmark-Suiten: MMLU (1500 Multiple-Choice-Fragen aus 57 Fächern), HumanEval und MBPP (Code-Generierung), GSM8K und MATH (Mathematik), MMMLU (multilingual MMLU), HELM (übergreifende Eval, über 40 Szenarien), und proprietäre Anbieter-Suiten. Mai 2026 ist die Eval-Landschaft fragmentiert – kein einzelner Score erfasst Modell-Qualität vollständig. Für KMU-Auswahl sind multilinguale Benchmarks (MMMLU DE-Subset, MEGA) und domänenspezifische Evals (Treuhand-, Recht-, Buchhaltungs-Q&A) wichtiger als die viel zitierten Allgemein-Scores.
Pretraining verstehen in 5 Schritten
- 01Akzeptieren Sie: Pretraining ist eine vergangene Phase, in der das Modell aus 10-15 Billionen Tokens Welttext gelernt hat. Sie nutzen das Ergebnis, nicht den Prozess.
- 02Prüfen Sie das Cutoff-Datum jedes Modells, das Sie einsetzen – alle Welt-Ereignisse danach sind dem Modell unbekannt.
- 03Prüfen Sie den Daten-Mix des Modells (DE/FR/IT/EN, Code, Bücher) anhand der öffentlich verfügbaren Model-Card oder Datasheet.
- 04Verstehen Sie die Grenze: Pretraining ist die obere Grenze der Modell-Fähigkeit. Fine-Tuning und RAG schärfen, aber sprengen sie nicht.
- 05Treffen Sie Modell-Wahl mit Pretraining-Bewusstsein: Claude/Mistral für DE-Qualität, DeepSeek für Kosten, Llama für Open-Weight, Gemini für Multilingual.
Wann Pretraining-Wissen praktisch wird
Vier konkrete KMU-Entscheidungen, in denen Pretraining-Wissen den Ausschlag gibt.
Entscheidung 1: Modell-Auswahl. Wenn Sie zwischen dem aktuellen Claude-Spitzenmodell, das jeweils aktuelle GPT-Spitzenmodell, Gemini 2.5 Pro, Llama 4 und die aktuelle DeepSeek-V-Generation wählen, ist Pretraining-Mix der Hauptfaktor für Qualität im Deutschen. Mai 2026 führen in deutschen Treuhand-Tests typisch das aktuelle Claude-Spitzenmodell und eine kommende Mistral-Large-Generation. Die aktuelle DeepSeek-V-Generation ist sehr kosten-effizient, hat aber mehr Englisch-Bias. Gemini 2.5 Pro hat eine breite Multilingual-Präsenz. Llama 4 ist Open-Weight (gut für Self-Hosting) mit solidem DE.
Entscheidung 2: Cutoff-Datum prüfen. Bevor Sie ein Modell für eine Aufgabe nutzen, prüfen Sie das Cutoff-Datum. Ist die zu beantwortende Frage nach diesem Datum entstanden (Steuer-Reform, Gesetzes-Änderung, Marktdaten), brauchen Sie RAG oder Web-Search-Tool. Mai 2026 Standard-Cutoffs: das aktuelle Claude-Spitzenmodell Jan 2026, das jeweils aktuelle GPT-Spitzenmodell Okt 2025, Gemini 2.5 Pro Dez 2025, Llama 4 Maverick März 2025, die aktuelle DeepSeek-V-Generation Sep 2025, eine kommende Mistral-Large-Generation Dez 2025.
Entscheidung 3: Compliance-Verträge lesen. Anbieter mit transparenten Pretraining-Daten (Mistral Cards, Anthropic Model Cards, Cohere Datasheets) ermöglichen revisionsfähige Nutzung. Anbieter mit Schweigen über Daten-Quellen schaffen Risiken bei EU-AI-Act-Audit (Art. 50 Transparenz-Pflicht). Für Treuhand und Anwaltskanzleien: Anbieter wählen, die Pretraining-Quellen wenigstens auf Kategorie-Ebene offenlegen.
Entscheidung 4: Erwartungs-Management. Pretraining schafft Sprachfähigkeit, kein Welt-Modell. Wer einem Modell eine Steuer-Detailfrage stellt, deren Antwort in keiner einzigen Wegleitung im Pretraining-Korpus stand, bekommt halluzinierte Antworten – kein Modell rettet das. Wer das verstanden hat, baut RAG-Anbindung ein statt "wir versuchen es einfach mit dem jeweils aktuellen GPT-Spitzenmodell".
Wann Pretraining-Knowhow nicht hilft
Drei Fälle, in denen das Wissen über Pretraining keinen Mehrwert bringt – oder zur Falle wird.
Erstens: KMU planen kein eigenes Pretraining. Selbst ein "kleines" Modell (7-13 Milliarden Parameter) braucht 50-200 H100-GPUs über 2-6 Wochen – USD 500.000 bis 3 Millionen plus Daten-Beschaffung, Personal und Compliance. Mai 2026 ist Pretraining ein Spiel für 50+ Organisationen weltweit, nicht für Treuhand-Büros. Wer "wir trainieren unser eigenes Modell" denkt, meint praktisch immer Fine-Tuning oder RAG (siehe wie-trainiert-man-eigenes-modell).
Zweitens: Pretraining-Daten-Mix lässt sich nicht "umtrainieren". Wenn Sie eine kommende Mistral-Large-Generation nutzen und mehr Deutsch-Kompetenz wollen, können Sie nicht "mal eben mehr Deutsch ins Pretraining nachladen". Pretraining ist eine vergangene Phase. Wer mehr DE-Kompetenz will, prüft Modell-Wechsel oder Fine-Tuning auf deutscher Domäne.
Drittens: Pretraining-Cutoff lässt sich nicht "auf morgen" verschieben. Das Cutoff-Datum ist der Stand der Trainings-Daten – keine API-Konfiguration ändert das. Wer aktuelle Daten braucht, baut RAG, Tool-Use mit Web-Search oder Fine-Tuning auf eigene Up-to-date-Daten. "Bitte aktualisiere dein Wissen" als Prompt funktioniert nicht.
Falle "kostenloses Pretraining". Anbieter wie Hugging Face Hub geben Open-Weights heraus – Llama, Mistral, Qwen, DeepSeek. Das Modell ist kostenlos, das Pretraining war nicht. Wer Open-Weight-Modelle selbst hostet, trägt die Inference-Kosten (Hardware, Strom, Wartung), nicht die Pretraining-Kosten. Diese Differenz ist gross: 13B-Modell Self-Hosting auf einer A100 kostet etwa CHF 1.5-3 pro Stunde Inference, das Pretraining hätte etwa USD 1-3 Millionen gekostet.
Falle "Pretraining schaut ins Internet". Mai 2026 hat KEIN Standard-LLM Live-Internet-Zugang – alles ist Pretraining-Echo. Für Live-Daten braucht das Modell ein Web-Search-Tool (Anthropic Brave Search Integration, OpenAI Browse-Tool, Perplexity, Gemini Google-Search). Das ist Tool-Use, nicht Pretraining.
Vor- und Nachteile
STÄRKEN
- Schafft Sprach- und Welt-Wissen aus einer simplen Trainings-Aufgabe (predict next token)
- Self-supervised: keine manuelle Beschriftung der Trainings-Daten nötig
- Skaliert mit Datenmenge – mehr Tokens = mehr Fähigkeit (bis zu einer Grenze)
- Pretraining-Ergebnis (Open-Weight oder API) ist Mai 2026 für KMU günstig zugänglich
SCHWÄCHEN
- Cutoff-Datum: Modell kennt nichts nach dem Stichtag – Updates brauchen Re-Training oder RAG
- Daten-Bias: 60-70% Englisch überlagert DE-Qualität
- Kosten USD 60-500 Millionen pro Frontier-Modell – nicht für KMU
- Compliance-Risiko: Lizenz-, Urheberrechts- und PII-Streitfragen bei Quellen
Häufige Fragen
Was kostet Pretraining wirklich?
Mai 2026 für Frontier-Modelle: Llama 3.1-405B USD 60-100 Millionen reine Rechenkosten (Meta-Bericht Juli 2024), das jeweils aktuelle GPT-Spitzenmodell USD 300-500 Millionen geschätzt, Gemini 2.5 Pro USD 200+ Millionen. Vollkosten (inkl. Daten, Personal, Forschung) sind typisch das Doppelte. Für ein 13-Milliarden-Parameter-Modell USD 1-3 Millionen, für ein 70B-Modell USD 8-25 Millionen. Pretraining ist Tech-Giganten-Domäne – KMU bauen darauf auf, nicht von vorn an.
Warum kennt das Modell aktuelle Ereignisse nicht?
Weil Pretraining mit einem Cutoff-Datum endet. Alle Welt-Ereignisse, Gesetzes-Änderungen oder Marktdaten danach sind dem Modell unbekannt. Mai 2026: das aktuelle Claude-Spitzenmodell Cutoff Jan 2026, das jeweils aktuelle GPT-Spitzenmodell Okt 2025, Gemini 2.5 Pro Dez 2025. Für aktuelles Wissen braucht das Modell RAG (eigene Wissensbasis), Web-Search-Tool oder Tool-Use mit Datenbank-Anbindung. "Bitte aktualisiere dein Wissen" als Prompt funktioniert nicht.
Warum ist Deutsch im Pretraining unterrepräsentiert?
Weil das Internet zu 60-70% englischsprachig ist. CommonCrawl und über 90% des öffentlich verfügbaren Texts (Bibliothek, ArXiv, Github) ist Englisch. Mai 2026 ist Deutsch der typisch zweit- oder drittgrösste Anteil (1.5-3%) – viel im absoluten Sinne (50-300 Milliarden Tokens), wenig im relativen. Konsequenz: DE-Qualität 5-15% schwächer als EN-Qualität bei den meisten Modellen. Mistral und DeepSeek haben relativ höhere DE-Anteile und sind im DE-Treuhand-Bereich Mai 2026 stark.
Kann das Pretraining "vergessen" werden?
Teilweise. Mit Unlearning-Techniken (Mai 2026 Forschung von Anthropic, OpenAI, Meta) kann ein Modell gezielt urheberrechtsverletzende Texte oder PII verlernen. Aber ein vollständiges "Pretraining-Reset" ist gleichbedeutend mit neuem Pretraining – also USD 50-500 Millionen Aufwand. Praktisch für KMU: irrelevant. Anbieter lösen Pretraining-Probleme durch Output-Filter (Refusal-Modell, Content-Moderation), nicht durch echtes Verlernen.
Verwandte Themen
Quellen
- Meta – The Llama 3 Herd of Models Technical Report (arXiv:2407.21783) · 2024-07
- Anthropic – the current top Claude model Model Card and Pretraining Disclosure · 2026-05
- Hoffmann et al. – Training Compute-Optimal Large Language Models (Chinchilla Scaling Laws, arXiv:2203.15556) · 2022-03
- Stanford CRFM – Foundation Model Transparency Index 2026 · 2026-03
- Epoch AI – Trends in Pretraining Compute and Cost 2020-2026 · 2026-04
PASSEND ZU IHREM STACK?