fairlane.systems

GOOGLE GEMINI · LLM-ANBIETER

Google Gemini im Schweizer Einsatz: Vertex AI, Zurich-Region und Datenfluss

Gemini 2.5 Pro/Flash/Flash-Lite über Vertex AI in europe-west6 (Zurich) oder europe-west3 (Frankfurt). Was das für revDSG, Preis und Modellwahl heisst.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Google Gemini?

Gemini ist die LLM-Familie von Google, im Mai 2026 in drei produktiv eingesetzten Generationen verfügbar: Gemini 2.5 Pro (das Flaggschiff, 1 Mio. Token Kontext, multimodal), Gemini 2.5 Flash (das Arbeitstier mit gutem Preis-Leistungs-Verhältnis) und Gemini 2.5 Flash-Lite (die günstige Variante für Hochvolumen). Die neuere Gemini-3.x-Generation ist im Mai 2026 in EU-Regionen noch nicht freigeschaltet, daher ist 2.5 für Schweizer Compliance der praxisrelevante Stand.

Für den B2B-Einsatz gibt es zwei Wege: erstens das Gemini Developer API über ai.google.dev (Consumer-naher Endpoint, schnell aufgesetzt, aber mit nicht-EU-Datenfluss in der Standardkonfiguration); zweitens Vertex AI auf der Google Cloud Platform (Enterprise-Pfad, mit wählbarer Region, IAM, Audit-Logs, kein Training auf Kundendaten). Für Treuhand und Kanzleien in der Schweiz ist faktisch nur der Vertex-AI-Pfad diskutabel.

Vertex AI bietet zwei EU-Regionen, die für Schweizer Kunden relevant sind: europe-west3 (Frankfurt) und europe-west6 (Zürich). Letztere ist die einzige Google-Cloud-Region in der Schweiz und die natürliche Wahl, wenn der Datenfluss das Land nicht verlassen soll. Allerdings: nicht jedes Gemini-Modell ist in jeder Region verfügbar. Gemini 2.5 Pro und 2.5 Flash laufen in europe-west3 und europe-west6, Flash-Lite ebenfalls. Pre-GA-Modelle und Multimodal-Live-Varianten sind oft auf US-Regionen oder global-multi-region beschränkt.

Warum es wichtig ist

Drei Gründe, warum Gemini in einem Schweizer Stack einen Platz verdient: Region Zürich, der 1-Mio-Kontext und die Preise von Flash-Lite.

Die Region europe-west6 ist für Treuhand und Kanzleien das einzige Argument, das Google hat und das die anderen US-Anbieter nicht haben. Ein OpenAI- oder Anthropic-Aufruf endet – auch über EU-Datacenter – letztlich in einem US-Kontrollierten Rechtsraum. Vertex AI in europe-west6 lässt die Daten physisch in der Schweiz; Google Switzerland GmbH ist Schweizer Vertragspartner; ein DPA mit Standardvertragsklauseln plus Schweizer-Anhang ist verfügbar. Das ist kein Freipass, aber es ist die saubere Variante für revDSG-sensible Fälle.

Der 1-Mio-Token-Kontext ist der zweite Punkt. Eine komplette Mandantenakte (Verträge, Korrespondenz, Buchhaltung) plus ein Jahr Bewegungsdaten passt komplett in einen einzigen Gemini-2.5-Pro-Prompt. Wo Sie sonst RAG aufbauen oder Dokumente zerschneiden, kann Gemini die rohe Akte verarbeiten. Das ist nicht immer billig, aber es spart Setup-Aufwand.

Dritter Punkt: Flash-Lite ist das günstigste Premium-Modell am Markt. Mit USD 0.10 pro 1M Input- und USD 0.40 pro 1M Output-Tokens (Stand Mai 2026, ai.google.dev) erlauben sich Anwendungen, die ein OpenAI-Aufruf nicht rechtfertigen würde: Massen-Klassifikation, Lead-Scoring, Stage-1-Triage im Mandanten-FAQ. Batch-API drückt das nochmal auf USD 0.05/0.20.

Wie es funktioniert

Der Vertex-AI-Pfad sieht so aus: GCP-Projekt anlegen, Vertex AI API aktivieren, ein Service-Account mit roles/aiplatform.user erstellen, Region in europe-west6 oder europe-west3 fixieren. Aufrufe gehen über den Endpoint europe-west6-aiplatform.googleapis.com (oder via LiteLLM-Gateway, was wir empfehlen, weil Modell-Failover und Logging zentral landen).

Modell-Aufruf: Vertex AI akzeptiert das Modell als vollqualifizierten Namen, z.B. publishers/google/models/gemini-2.5-pro. Pricing wird am Endpoint-Datacenter abgerechnet, nicht am Aufruf-Ort. Input pro 1M Tokens für Gemini 2.5 Pro liegt bei USD 1.25 (bis 200k Tokens) bzw. USD 2.50 (oberhalb), Output bei USD 10.00 (bzw. USD 15.00). Gemini 2.5 Flash: USD 0.30 Input / USD 2.50 Output. Flash-Lite: USD 0.10 / USD 0.40. Batch-API gibt 50% Rabatt für asynchrone Workloads – gut für nächtliche Belegerkennung oder Mandanten-Reports.

Data-Retention: Vertex AI loggt standardmässig 30 Tage zur Missbrauchs-Erkennung. Auf Antrag (Form-Request, projekt- oder rechnungsspezifisch) kann Zero Data Retention aktiviert werden – dann werden Prompts und Responses nicht über das Antwort-Lebensdauer hinaus gespeichert. Caching lässt sich separat deaktivieren. Wichtig: Trainieren auf Kundendaten ist Vertrags-ausgeschlossen, das war es schon vor 2026. Es betrifft nur Google AI Studio / Gemini-Apps (Consumer), nicht Vertex AI.

Multimodale Inputs (PDF, Bild, Audio, Video) gehen direkt rein. Gemini 2.5 Pro kann z.B. ein 100-seitiges PDF lesen und konkrete Tabellen extrahieren. Für Belegerkennung ist das oft schneller als ein dedizierter OCR-Stack.

Gemini-Onboarding für ein Schweizer KMU

  1. 01Datenklassifikation: Welche Daten sollen über Gemini fliessen? Mandantenname / Belegtext / Inhaltsdaten? Auf Vertraulichkeits-Tier mappen.
  2. 02GCP-Konto bei Google Switzerland GmbH eröffnen, Schweizer Rechnungsadresse, Schweizer Vertragspartei sichern.
  3. 03Projekt mit Region-Lock auf europe-west6 anlegen. Organisations-Policy: ressource.locations = europe-west6, europe-west3.
  4. 04DPA + Standardvertragsklauseln + Schweizer-Addendum unterzeichnen. Bei sensiblen Daten: Zero-Data-Retention-Form anfragen.
  5. 05IAM minimal: ein Service-Account pro Anwendung, roles/aiplatform.user, kein Owner. Keys in Secret Manager.
  6. 06Modellwahl in der Aufruf-Schicht: Gemini 2.5 Flash-Lite als Default, Gemini 2.5 Pro für komplexe Fälle, Routing über LiteLLM.
  7. 07Audit-Log nach Cloud Logging einschalten, Sentry-Integration für Fehler, Loki für Latenz-Tracking.

Wann Gemini einsetzen

Gemini ist die richtige Wahl, wenn Sie (a) Datenfluss in der Schweiz oder EU halten müssen, (b) sehr lange Dokumente in einem einzigen Aufruf verarbeiten wollen oder (c) Hochvolumen-Klassifikation mit knappem Budget brauchen.

Konkrete Anwendungen: Mandanten-Onboarding mit kompletter Akten-Lektuere (2.5 Pro, 1M Kontext, europe-west6), Belegerkennung im Batch (Flash-Lite, USD 0.10 Input, Batch-API), Triage von Support-Tickets (Flash-Lite mit RAG), Bild-/PDF-Analyse für Steuerbescheide. Auch Multimodal-Voice-Agenten arbeiten über Gemini-Live in Frankfurt – wenn die Live-API in EU verfügbar ist.

Im Vergleich zur GPT-/Claude-Konkurrenz: Gemini gewinnt klar beim Preis und beim Kontext. Claude Opus ist beim juristischen Reasoning besser, das jeweils aktuelle GPT-Spitzenmodell bei kreativer Schreibarbeit. Für 80% des Treuhand-Alltags reicht Gemini 2.5 Flash – und kostet nur einen Bruchteil.

Wann NICHT

Gemini ist die falsche Wahl, wenn Sie eine reine Schweizer-Souveränitäts-Lösung brauchen, bei der kein US-Anbieter im Spiel sein darf. Google bleibt eine US-Muttergesellschaft, dem CLOUD Act unterworfen. Vertex AI in europe-west6 ist sehr gut, aber kein Schweizer Hoster. Wenn das Mandat das ausschliesst, gehört die Lösung auf Mistral (EU-Anbieter), Swisscom-Sovereign-Cloud oder eine eigene Ollama-Instanz.

Weitere Fälle: Bei Workloads, die kreatives Schreiben oder juristisch-präzises Reasoning verlangen, ist das aktuelle Claude-Spitzenmodell überlegen. Bei Tool-Use / Function-Calling mit komplexer Logik liegt das jeweils aktuelle GPT-Spitzenmodell vorne. Bei spezialisierten Aufgaben (Code-Review, mathematische Beweise) sind die Open-Source-Modelle (Llama 4, die aktuelle DeepSeek-V-Generation) oft besser.

Achtung auch bei Gemini-3.x-Modellen: Die werden bei Launch typisch nur in US-Regionen freigeschaltet. Wenn Sie ein 3.x-Modell brauchen, müssen Sie warten oder einen EU-DPA-Sonderfall verhandeln – kein praktischer Weg für eine 5-Personen-Treuhand.

Gemini Developer API (ai.google.dev) ohne Vertex AI ist für B2B-Schweiz nicht empfehlenswert: Standardterms erlauben breitere Datennutzung und die Region ist nicht wählbar.

Vor- und Nachteile

STÄRKEN

  • Einzige LLM-Familie mit Schweizer Cloud-Region (europe-west6, Zurich)
  • 1-Mio-Token-Kontext: komplette Mandantenakten ohne RAG verarbeitbar
  • Flash-Lite bei USD 0.10/0.40 pro 1M Tokens – billiger als die meisten Open-Source-Hoster
  • Vertex AI: kein Training auf Kundendaten, Zero-Data-Retention auf Antrag
  • Multimodal nativ: PDF, Bild, Audio direkt im Aufruf

SCHWÄCHEN

  • US-Muttergesellschaft: CLOUD Act bleibt theoretisches Restrisiko trotz EU-Region
  • Gemini-3.x-Modelle Mai 2026 in EU nicht verfügbar – Sprung-Risiko
  • Reasoning-Qualität hinter Claude Opus bei komplexer juristischer Logik
  • Vertex-AI-Onboarding ist administrativ schwerer als ein OpenAI-Key
  • Multi-Region-Failover muss explizit konfiguriert werden, sonst Single-Region-Risiko

Häufige Fragen

Bleiben die Daten wirklich in der Schweiz, wenn ich europe-west6 nutze?

Die Inferenz-Verarbeitung und das standardmässige 30-Tage-Logging finden in der Region statt, also in Zürich. Was nicht zwingend in der Region bleibt: aggregierte Telemetrie, Abrechnungsdaten, Account-Metadaten. Google ist eine US-Muttergesellschaft, die dem CLOUD Act untersteht – eine US-Behörde kann theoretisch Herausgabe verlangen. Für revDSG-Zwecke ist europe-west6 sehr gut; für absolute Souveränität braucht es Sovereign-Cloud-Modelle oder Self-Hosting.

Welches Gemini-Modell soll ich als Default routen?

Gemini 2.5 Flash. Es liegt im Preis bei USD 0.30 Input / USD 2.50 Output pro 1M Tokens, hat das gleiche 1M-Kontextfenster wie Pro und reicht für 80% des Büro-Alltags. Pro wird nur für komplexes Reasoning oder lange juristische Analysen aufgerufen. Flash-Lite ist für Hochvolumen-Klassifikation. Routing-Regel in LiteLLM: Default Flash, escalate-on-low-confidence zu Pro.

Kann ich Gemini-3.x in der Schweiz nutzen?

Im Mai 2026 nein. Google hat eine neuere Gemini-Generation angekündigt, aber EU-Regionen – inklusive europe-west6 – werden initial nicht beliefert. Pre-GA-Modelle laufen in US-Regionen oder global-multi-region. Wer in der Schweiz bleiben muss, bleibt vorerst auf Gemini 2.5 Pro/Flash/Flash-Lite. Diese sind allesamt produktreif und im Mai 2026 nicht Pre-GA.

Wie verhält sich Gemini im EU-AI-Act?

Gemini 2.5 Pro ist als General-Purpose-AI-Modell mit systemischem Risiko eingestuft (>10^25 FLOP Trainings-Compute). Google liefert die nötigen Modell-Karten, Risk-Assessments und das Trainingsdaten-Summary, das Art. 53 AI-Act verlangt. Für den Deployer (= das Schweizer KMU, das Vertex AI nutzt) heisst das: dokumentieren, in welchem Prozess das Modell läuft, welche Risikoklasse die Anwendung hat (meist begrenztes Risiko) und welche Transparenzhinweise gegenüber Mandanten nötig sind.

Verwandte Themen

MULTI-LLM GATEWAY · SERVICEMulti-LLM Gateway: Acht Anbieter, ein Eingang, Compliance-RoutingROUTING · AI-KONZEPTMulti-LLM-Routing: Welches Modell wann, für wievielTIA · COMPLIANCEDrittlandtransfer und Transfer Impact Assessment (TIA): CH-Daten in US- und PRC-Cloud-LLMsrevDSG · COMPLIANCErevDSG / revFADP und KI: Was das revidierte Schweizer Datenschutzgesetz für LLM-Nutzung bedeutetANTHROPIC · LLM-ANBIETERAnthropic Claude aus CH-Treuhand-Sicht: Residency, Pricing, ComplianceOPENAI · LLM-ANBIETEROpenAI GPT-Modelle aus CH-Treuhand-Sicht: Residency, Pricing, Compliance

Quellen

  1. Google Cloud Vertex AI – Generative AI Pricing (Gemini 2.5 Pro/Flash/Flash-Lite) · 2026-05
  2. Vertex AI – Data Residency and Locations (europe-west6 Zurich, europe-west3 Frankfurt) · 2026-04
  3. Gemini API – Pricing reference (Developer endpoint) · 2026-05
  4. Vertex AI – Zero Data Retention Setup · 2026-03
  5. GCP Model Availability – europe-west6 (Zurich) catalogue · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen