fairlane.systems

ENERGIE & CO2 · TREND 2026

Trend Energie und CO2 von KI 2026: Was eine Anfrage wirklich verbraucht und wo die Schweiz steht

Mai 2026: 0.3 Wh pro GPT-4-Anfrage, 500t CO2 fürs GPT-4-Training, Rechenzentren +35% YoY. CH-Vorteil: Wasserkraft und Wärmenutzung.

Recherche & Faktencheck: · Stand: 2026-05

Was bedeutet KI-Energieverbrauch im Mai 2026?

KI-Energie-Diskussion trennt zwei Phasen, die unterschiedlich Strom verbrauchen.

Training: einmaliger Vorgang über Wochen oder Monate. GPT-4-Training (2022-2023) wird auf rund 50 GWh und etwa 500 Tonnen CO2-Äquivalente geschätzt (Quelle: Sustainable AI Lab der Hugging Face, Annahme Standard-US-Strommix). Llama 4 Maverick (April 2025, über 30 Billionen Trainings-Tokens) liegt nach Meta-Eigenangabe bei etwa 1500 Tonnen CO2-Äquivalente, kompensiert über Meta-eigene Renewable-PPAs. Gemini 2.5 und das aktuelle Claude-Spitzenmodell publizieren keine offiziellen Zahlen – Schätzungen liegen bei 200-800 Tonnen CO2.

Inferenz: laufender Verbrauch pro Anfrage. Studien Mai 2026 (Sustainable AI, EPFL Mai 2025; Cottier et al., arXiv April 2026) konvergieren auf: - GPT-4-Klasse pro Standard-Anfrage: 0.2-0.4 Wh (Median 0.3 Wh). - GPT-4-Klasse pro Reasoning-Anfrage (o3, Extended Thinking): 1.5-5 Wh. - GPT-4o-mini-Klasse: 0.05-0.15 Wh pro Anfrage. - Lokales 8B-Modell auf Apple M-Chip: 0.005-0.02 Wh pro Anfrage.

Vergleich Google-Suche: 0.0003 Wh pro Suchanfrage (Google-Eigenangabe 2009, von Google 2024 nicht aktualisiert). Eine GPT-4-Anfrage verbraucht also rund 1000-mal mehr Strom als eine klassische Suche. Tatsächlich relevant sind aber nicht die Einzelwerte, sondern die aggregierten Mengen – und die hat der Data-Center-Boom 2024-2026 sichtbar verschoben.

Warum es 2026 wichtig wird

Drei Entwicklungen erhöhen den Druck.

Erstens Data-Center-Boom: nach IEA-Bericht "Electricity 2026" (Januar 2026) wächst der globale Rechenzentrums-Stromverbrauch von rund 460 TWh (2022) auf prognostiziert über 1000 TWh bis 2026, mit KI als Haupt-Treiber. USA und Asia-Pacific +35% YoY in 2025-2026. In Irland machten Rechenzentren 2024 bereits 21% des nationalen Stromverbrauchs aus; in Virginia (USA) über 25% an Spitzentagen. McKinsey schätzt (März 2026) den globalen Investitionsbedarf in KI-Rechenzentren bis 2030 auf USD 5.2 Billionen.

Zweitens Wasser- und Kühlungskosten: Rechenzentren brauchen Wasser für Verdunstungskühlung. Microsoft-Sustainability-Report 2024 berichtet 24% steigenden Wasserverbrauch durch KI-Workloads. In wasserarmen Regionen (Spanien, Arizona, Naher Osten) wird das zum Konflikt. Cooling steht in modernen Hyperscale-Rechenzentren für 40-50% des Gesamt-Stromverbrauchs – wer effizient kühlt (PUE-Wert unter 1.2), spart fast die Hälfte.

Drittens Regulatorische Pflichten: EU CSRD-Berichtspflicht (Corporate Sustainability Reporting Directive, ab 2025 für grosse Firmen, ab 2027 für KMU) verlangt CO2-Reporting im Scope 3 – KI-Cloud-Nutzung gehört dazu. Schweizer Firmen mit EU-Tochter melden auch. Anbieter wie Anthropic, Microsoft Azure und Google Cloud bieten Mai 2026 Carbon-Reports pro API-Nutzer – wer berichten muss, hat die Daten über das jeweilige Dashboard.

Wie es funktioniert

Der Energiebedarf von KI lässt sich auf drei Ebenen messen.

Pro Anfrage (Inferenz): Tokens × Modellgrösse × Hardware-Effizienz. Eine GPT-4o-Anfrage mit 500 Output-Tokens auf einer Nvidia H100 (700 W bei voller Last) verbraucht physikalisch geschätzt 0.15-0.30 Wh – die genaue Zahl hängt von Batching, Quantisierung und Cooling ab. Anthropic publizierte April 2026 eine Pilot-Studie mit der Universität Lausanne: Claude Sonnet im Schnitt 0.25 Wh pro Anfrage ohne Extended Thinking, 1.8 Wh mit.

Pro Trainings-Lauf: GPU-Stunden × Power × Cooling-Overhead. Llama 4 wurde laut Meta auf 32000 H100-GPUs über rund 25 Tage trainiert = ca. 19 Mio GPU-Stunden × 0.7 kW × 1.2 PUE ≈ 16 GWh. Mit US-Strommix-Faktor 0.4 kg CO2/kWh: rund 6400 Tonnen CO2eq. Meta-Eigenangabe von 1500 Tonnen unterstellt einen Renewable-Anteil von 75-80%.

Pro Rechenzentrum: PUE-Wert (Power Usage Effectiveness) = Gesamt-Strom / IT-Strom. Beste Rechenzentren erreichen PUE 1.1 (10% Overhead für Kühlung), Durchschnitt 1.5-1.8. Daraus folgt: nicht das Modell allein bestimmt den Footprint, sondern wo es läuft. Ein Modell auf einem PUE-1.1-Rechenzentrum mit 100% Wasserkraft erzeugt 3-5x weniger CO2 als das gleiche Modell auf einem PUE-1.8-Rechenzentrum mit Kohlestrom.

Schweizer Vorteile: - Strommix CH: rund 60% Wasserkraft, 30% Atomkraft, 10% Photovoltaik/Wind. CO2-Faktor: 0.04 kg/kWh, 10x niedriger als US-Schnitt (0.4 kg/kWh) und 5x niedriger als DE (0.2 kg/kWh nach Energiewende). - Klima: kühleres Klima senkt Kühlbedarf. Schweizer Rechenzentren erreichen Free-Cooling 8-10 Monate pro Jahr. - Wärmenutzung: Infomaniak (CH) heizt seit 2022 über Abwärme seines Genfer Rechenzentrums 6000 Wohnungen. Green Datacenter (Lupfig) nutzt Abwärme fürs Fernwärme-Netz Zürich.

Trend beobachten und einsetzen in 5 Schritten

  1. 01Marktbeobachtung: jährlich die Sustainability-Reports von OpenAI, Anthropic, Google Cloud, Microsoft Azure prüfen. IEA-Reports zur Rechenzentrumsentwicklung verfolgen. Schweizer Statistiken (BFE, Asut) jährlich.
  2. 02KI-Verbrauchs-Inventar: pro KI-Werkzeug die geschätzten Anfragezahlen pro Monat und Modell-Klasse erfassen. Mit Median-Werten (Standard 0.3 Wh, Reasoning 2 Wh, Edge 0.01 Wh) den CO2-Footprint hochrechnen.
  3. 03Pilot-Optimierung: Modell-Klasse pro Use-Case überprüfen – wo reicht GPT-4o-mini oder Claude Haiku statt der grossen Modelle. Prüfen, ob Batch-API für asynchrone Workloads möglich ist.
  4. 04Standort-Strategie: bei eigenem Hosting oder Reseller-API explizit eine EU- oder CH-Region wählen (Anthropic via Vertex Zurich, Hetzner Falkenstein DE, Infomaniak Genf). Dokumentieren.
  5. 05Reporting: einmal jährlich oder pro Mandatsbericht eine CO2-Zeile zur KI-Nutzung – mit Quellenangabe der Median-Werte und dem gewählten Strommix-Faktor. Auch ohne CSRD-Pflicht eine professionelle Praxis.

Wann CO2-Optimierung lohnt

CO2-Optimierung lohnt sich in vier Konstellationen.

Erstens bei hoher Anfragelast: ab etwa 10000 Anfragen pro Monat ist der Unterschied zwischen Carbon-armer und Carbon-reicher Inferenz spürbar. Beispielrechnung: 10000 GPT-4o-Anfragen pro Monat × 0.3 Wh = 3 kWh Strom. Auf US-Mix: 1.2 kg CO2. Auf CH-Mix: 0.12 kg CO2. Klein, aber über ein Jahr sind das 14.4 kg vs 1.4 kg.

Zweitens bei eigenem Hosting: wer Llama 4 oder Mistral selbst hostet, steuert den Strommix direkt. Hetzner-Standort Falkenstein DE läuft mit Wind+PV-PPA, Infomaniak Schweiz mit Wasserkraft. Cloud-API-Anbieter sind weniger transparent – OpenAI macht keine Standort-Wahl möglich.

Drittens bei CSRD-Berichtspflicht: ab 2027 für KMU mit Umsatz > EUR 50 Mio oder Beschäftigte > 250 in der EU. Schweizer KMU mit EU-Tochter melden auch. Hier muss CO2-Verbrauch der KI-Nutzung in Scope 3 dokumentiert sein.

Viertens als Verkaufsargument: Kunden im Banken-, Versicherungs- und Pharma-Bereich verlangen zunehmend CO2-Nachweise von Lieferanten. Wer dokumentiert auf Schweizer Wasserkraft hostet, gewinnt im Pitch.

Konkrete Optimierungen Mai 2026: - Kleines Modell wählen, wenn möglich (GPT-4o-mini statt 4o, Claude Haiku statt Sonnet) – Faktor 3-5 Energieersparnis bei vielen Aufgaben. - Cache verwenden (Anthropic Prompt Caching, OpenAI Cached Input) – wiederholte Prompts kosten weniger Strom. - Batch-API benutzen (OpenAI Batch, Anthropic Batch): Aufgaben in 24h-Faenster bundlen, dadurch effizientere Auslastung der Hardware (50% Preis-Discount, 30-50% weniger Energie). - Standort bewusst wählen: Anthropic via Google Cloud europe-west6 (Zürich) statt us-central1. - Reasoning sparsam einsetzen: o3 nur dort, wo es wirklich Mehrwert bringt.

Wann CO2-Optimierung nicht prioritär ist

CO2-Optimierung sollte nicht zu Lasten anderer Ziele gehen.

Niedrige Anfragelast: unter 1000 Anfragen pro Monat ist der Unterschied zwischen den Strommix-Optionen weniger als 1 kg CO2 jährlich. Hier lohnt sich Zeit-Investment besser in Qualität und Compliance.

Qualität über Energie: wenn das billigere kleine Modell mehr Fehler macht, die einen Menschen zur Nacharbeit zwingen, ist der CO2-Vorteil schnell aufgezehrt. Ein menschlicher Arbeitstag auf einem Büro-PC und Heizung verbraucht 5-10 kWh – das entspricht 20000-30000 GPT-4o-Anfragen.

Greenwashing-Falle: einige Anbieter werben mit "100% renewable" via Renewable Energy Certificates (RECs) ohne tatsächliche zeitliche oder oertliche Deckung. Forschung von Princeton (Februar 2026) zeigt, dass nur 24-7-stündliche Matched-PPAs (Power Purchase Agreements) den CO2-Footprint tatsächlich auf null bringen. Microsoft und Google haben 24-7-Match-Ziele für 2030. OpenAI publiziert keine entsprechenden Daten.

Falsche Vergleiche: "GPT-4-Anfrage = 30 Smartphone-Ladungen" ist eine Schlagzeile, die auf höchsten Schätzungen basiert. Realistisch entspricht eine Anfrage 1-2 Smartphone-Ladungen (Median 0.3 Wh, Smartphone-Akku 10-15 Wh). Wer Stakeholdern erklärt, sollte mit den belastbaren Median-Werten arbeiten, nicht mit Worst-Case-Schätzungen.

Marketing-Fehler vermeiden: keine Behauptung "klimaneutrale KI" ohne klare Quelle. Carbon-Offsets über Dritte sind Mai 2026 weiter umstritten – eine durch Renewable-PPA gedeckte Inferenz ist die ehrlichere Basis.

Vor- und Nachteile

STÄRKEN

  • CH-Strommix (60% Wasserkraft, CO2-Faktor 0.04 kg/kWh) liefert klaren Standort-Vorteil
  • Batch-APIs und Prompt-Caching senken Strom- und Token-Verbrauch parallel
  • Edge-Modelle (Apple Intelligence, Phi-4-mini) reduzieren Strombedarf um Faktor 20-30
  • CSRD-Reporting ab 2027 motiviert dokumentierte Optimierung

SCHWÄCHEN

  • Frontier-Modelle und Reasoning-Modus haben deutlich höheren Energiebedarf (5-10x)
  • Anbieter veröffentlichen je nach Firma sehr unterschiedlich detaillierte Carbon-Daten
  • Carbon-Offsets sind kontrovers – Greenwashing-Risiko hoch
  • Wassernutzung in Kühlung wird in trockenen Regionen zur Konfliktlinie

Häufige Fragen

Wie viel CO2 verursacht meine Treuhand-KI-Nutzung pro Jahr?

Faustregel: 1000 GPT-4-Anfragen/Monat auf CH-Strommix = 0.15 kg CO2 jährlich. 10000/Monat = 1.5 kg jährlich. Selbst bei 100000/Monat (sehr grosse Kanzlei): 15 kg CO2 jährlich. Zum Vergleich: ein Flug Zürich-Berlin liegt bei rund 200 kg CO2 pro Person. KI-Inferenz ist im KMU-Alltag eine vernachlässigbare Position im Vergleich zu Büroheizung, Pendelverkehr und Geschäftsreisen.

Wie sieht es bei Trainings-CO2 aus?

Training ist eine Einmal-Investition des Modell-Anbieters, kein Nutzer-Footprint. Verteilt auf hunderte Millionen Anfragen pro Modell ist der Trainings-Anteil pro Einzel-Anfrage minimal (< 5% des Inferenz-Verbrauchs). Wer Llama 4 nutzt, trägt formal keinen Trainings-CO2-Anteil – Meta hat das schon ausgegeben. Wer das aktuelle Claude-Spitzenmodell nutzt, indirekt anteilig über die Subscription, aber technisch sehr klein.

Senkt ein Edge-Modell die CO2-Bilanz?

Ja, sehr deutlich. Apple Intelligence auf einem M-Mac verbraucht etwa 0.01-0.02 Wh pro Anfrage – Faktor 20-30 niedriger als GPT-4o. Aber: nur Sinn, wenn das lokale Modell auch reicht. Wenn die niedrigere Qualität zu Nacharbeit führt, ist der Vorteil verloren.

Sollte ich Carbon-Offsets für meine KI-Nutzung kaufen?

Mai 2026 raten die meisten Sustainability-Berater davon ab. Carbon-Offsets sind in den letzten zwei Jahren stark in der Kritik (Verra-Skandal 2023, Berliner-Tagesspiegel-Recherche 2025). Empfehlung: erst reduzieren (kleines Modell, CH/EU-Region, Batch-API), dann ggf. Anbieter mit echten 24-7-Matched-PPAs wählen (Microsoft, Google), kompensieren erst als allerletzten Schritt mit hochwertigen Direct-Air-Capture-Zertifikaten (Climeworks, Heirloom).

Verwandte Themen

HETZNER · TECHHetzner als EU-Hosting für CH-Treuhand und KMU: Rechenzentren, Verträge, KostenHETZNER · INFOMANIAK · EXOSCALE · DUELLHetzner vs Infomaniak vs Exoscale – wo hostet ein CH-Treuhand seine KI?SOUVERÄNES HOSTING - VERGLEICHSouveränes Hosting im Vergleich: Hetzner, Infomaniak, Exoscale, OVHcloud, Scaleway, Swisscom, Safe Swiss Cloud, netcup, Contabo, On-PremSELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und TreuhandTOKEN-PRICING · KOSTENToken-Kosten erklärt: Input, Output, Cache, Provider-Vergleich Mai 2026EDGE AI · TREND 2026Trend Edge AI 2026: On-Device-Modelle für Smartphone, Laptop und Mandanten-AppREASONING · TREND 2026Trend Reasoning-Modelle 2026: o3, R1, Extended Thinking und der Test-Time-Compute-Boom

Quellen

  1. IEA – Electricity 2026 report · 2026-01
  2. Cottier et al. – The energy footprint of generative AI inference (arXiv) · 2026-04
  3. Anthropic / EPFL – Pilot study on das aktuelle Claude-Spitzenmodell inference energy · 2026-04
  4. Infomaniak – Datacenter waste heat reuse for district heating · 2025-09
  5. Microsoft – Environmental Sustainability Report 2024 · 2024-08

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen