ANONYMISIERUNG · AI-KONZEPT
Anonymisierung und Pseudonymisierung: Presidio, Privacera, K-Anonymität, Differential Privacy
Tools und Techniken im Mai 2026 für DSG-konforme PII-Entfernung vor LLM-Verarbeitung: Microsoft Presidio, Privacera, Anonymizer, K-Anonymität und Differential Privacy im Vergleich.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist der Unterschied?
Anonymisierung und Pseudonymisierung klingen ähnlich, sind rechtlich aber sehr unterschiedlich. Bei Pseudonymisierung wird ein Identifier (z.B. Mandantenname) durch ein Pseudonym ("Mandant 123") ersetzt; die Zuordnungstabelle wird separat gespeichert. Mit dieser Tabelle lässt sich die Identität wiederherstellen. Pseudonymisierte Daten bleiben unter dem Schweizer Datenschutzgesetz (revDSG, Art. 5 lit. c) und der DSGVO (Art. 4 Nr. 5) Personendaten - sie geniessen denselben Schutz wie Originaldaten.
Bei Anonymisierung wird die Verbindung zur Person dauerhaft entfernt; auch mit Zusatzwissen ist keine Re-Identifizierung mehr möglich. Anonyme Daten fallen aus dem Geltungsbereich des Datenschutzes heraus.
Das ist wichtig für KI-Pipelines: Wer Mandanten-Mails durch Microsoft Presidio mit Replacement schickt und glaubt, jetzt anonym zu sein, irrt. Wer "Bachmann" durch "Person_42" ersetzt, hat pseudonymisiert. Echte Anonymisierung erfordert deutlich mehr: Löschen statt Ersetzen, Generalisierung von Quasi-Identifikatoren (Datum auf Monat ungenau machen, Postleitzahl auf 2 Ziffern), und mathematische Garantien gegen Re-Identifizierung (K-Anonymität, L-Diversität, Differential Privacy).
Im Mai 2026 ist die Tool-Landschaft etabliert. Microsoft Presidio (MIT) ist der Open-Source-Standard für PII-Detection und -Replacement. Privacera ist Enterprise-Cloud mit Connector-Bibliothek für Datenbanken, Data Lakes und LLM-Gateways. Anonymizer (Open Source, Mai 2026 Version 2.0) spezialisiert sich auf Pre-LLM-Pipelines. Für mathematisch garantierte Anonymisierung: ARX (Open Source, Java) für K-Anonymität/L-Diversität, OpenDP und Tumult Analytics für Differential Privacy.
Warum es wichtig ist
Ohne saubere PII-Behandlung sind drei Risikoszenarien nahe.
Erstens: Cloud-LLM-Provider sehen Klartext-Mandantendaten. Wer eine Mandanten-Mail in Claude oder GPT-4 schickt, ohne Namen, Adressen, AHV-Nummern, Bankverbindungen vorher zu maskieren, übergibt diese Daten an einen US-Provider. Das verletzt DSG-Datentransfer-Regeln, wenn kein Vertrag zur Auftragsverarbeitung mit Standard-Vertragsklauseln, kein Transfer-Impact-Assessment und keine Einwilligung vorliegt.
Zweitens: Berufsgeheimnis-Verletzung. Anwaltskorrespondenz (StGB Art. 321), Patientendaten (StGB Art. 321), Bankgeheimnis (BankG Art. 47) sind strafbewehrt. Ein einziges Auslecken kann Berufsverbot bedeuten. Die FINMA-Aufsicht hat im November 2024 in einem Rundschreiben klargestellt: KI-Nutzung ohne ausreichenden Datenschutz ist eine Aufsichtsverletzung.
Drittens: Trainings-Leak. Sogenannte "opt-out" Vereinbarungen mit Cloud-Providern garantieren, dass Eingaben nicht ins Training gehen, aber sie schliessen Caching, Logs, internal Audits nicht aus. PII, die durch eine LLM-Pipeline läuft, taucht oft in Provider-Logs auf - im Falle eines Daten-Lecks (siehe Anthropic im April 2024) ist die Information aus dem Mandanten-Geheimnis heraus.
Anonymisierung löst das Problem, indem die kritischen Daten gar nicht erst an die Cloud gehen. Pseudonymisierung verschiebt das Problem, indem es die Re-Identifizierung kontrolliert macht. Welche Strategie passt, hängt vom Use-Case ab. Für Mandanten-Anfragen-Triage (intern, kein Output an Mandanten): Pseudonymisierung reicht. Für eine Auswertungs-Pipeline auf Analytics-Tier (Statistik über Mandantengruppen): Anonymisierung Pflicht.
Wie es funktioniert
Microsoft Presidio (MIT): zwei Komponenten. Analyzer erkennt PII via Regex, NER-Modelle (spaCy, Stanza, Flair) und benutzerdefinierte Recognizers. Anonymizer ersetzt, hashed, redacted oder verschlüsselt die Funde. Out-of-the-box-Erkennung für 30+ PII-Typen inkl. EU-spezifisch (IBAN, EU-Personalausweis), Schweiz-Erweiterung über Custom Recognizers (AHV-Nummer 13-stellig, MWST-Nummer mit CHE-Präfix). Open Source, lokal lauffähig, Default-Empfehlung für Schweizer Büro.
Privacera: Cloud-Plattform (mit on-prem-Option), enterprise-Tarif. Connector-Bibliothek für Snowflake, Databricks, S3, LLM-Gateways. Sinnvoll für Unternehmen mit grosser Data-Lake-Landschaft. Überkill für KMU.
Anonymizer (Open Source, Mai 2026 v2.0): Pre-LLM-Library mit Fokus auf Reverse-Pseudonymisierung. Schlüssel-Material liegt lokal; LLM verarbeitet pseudonymisierten Text; Output wird re-pseudonymisiert zurückgegeben. Wichtig für Use-Cases, in denen die Mandanten-Identität im Output wiederhergestellt werden muss (E-Mail-Antwort an "Herrn Bachmann", nicht an "Person_42").
K-Anonymität (ARX, Java OSS): aggregierte Datensätze werden so generalisiert, dass jeder Datensatz mindestens K-1 andere Datensätze mit identischen Quasi-Identifikatoren hat. K=5 ist verbreiteter Standard. Beispiel: PLZ-Datum-Beruf-Kombinationen werden so unscharf gemacht, dass jede Kombination auf mindestens 5 Personen zutrifft.
L-Diversität und T-Closeness sind Erweiterungen von K-Anonymität, die zusätzlich gegen Inferenz-Angriffe über Attribut-Verteilung schützen.
Differential Privacy (OpenDP, Tumult Analytics): mathematisch beweisbare Garantie. Pro Anfrage wird kontrolliertes Rauschen addiert; bei einem "Privacy Budget" Epsilon-Wert von 1.0 ist garantiert, dass die Anwesenheit eines einzelnen Datensatzes statistisch nicht aus der Antwort ableitbar ist. Apple, Google und das US Census Bureau nutzen DP produktiv. Für Schweizer Mittelstand meist Overkill, für Forschungsprojekte mit Personendaten Pflicht.
In der Praxis kombinieren wir Presidio für Detection, Anonymizer für Reverse-Pseudonymisierung und ARX für Analytics-Schichten, alles in einer Air-Gapped-Pipeline. Cloud-LLM bekommt nur pseudonymisierten Text; bei Output wird re-pseudonymisiert; Analytics-Auswertungen laufen auf K-anonymisierten Datensätzen.
PII-Schutz-Workflow in 6 Schritten
- 01Inventar: Welche PII-Typen tauchen im Korpus auf (Name, Adresse, AHV, IBAN, Geburtsdatum, Beruf, MWST-Nummer)? Welche sind Quasi-Identifikatoren?
- 02Use-Case einordnen: Pseudonymisierung (Klartext-Output gewünscht) oder Anonymisierung (statistische Auswertung)?
- 03Detection-Setup: Presidio mit Schweizer Custom Recognizers (AHV, CHE-MWST, Kantonsabkürzungen). Recall messen auf 100-Stichprobe.
- 04Replacement/Generalisierung: Replacement bei Pseudonymisierung, Generalisierung (Datum auf Monat, PLZ auf 2 Stellen) bei Anonymisierung.
- 05Schlüssel-Verwahrung: bei Pseudonymisierung Mapping-Tabelle in separater, verschlüsselter DB (Postgres TDE oder HashiCorp Vault).
- 06Audit-Log: jede Pseudonymisierung und Re-Pseudonymisierung mit Zeitstempel, Mandanten-ID und Verarbeiter geloggt. Lösch-Anspruch entfernt Mapping plus Embeddings.
Wann was
Presidio plus Anonymizer (Reverse-Pseudonymisierung): Default für alle Cloud-LLM-Pipelines mit Mandantendaten. Klartext bleibt lokal, Cloud sieht nur pseudonymisierten Inhalt.
K-Anonymität via ARX: bei Analytics-Use-Cases (Mandanten-Statistiken, Branchen-Auswertungen), wenn die individuellen Datensätze ohnehin aggregiert werden sollen.
Differential Privacy: für Forschungs-Projekte, öffentliche Reportings mit Personendaten, oder Cross-Border-Datenaustausch mit nachweisbaren Privacy-Garantien. Für Treuhand und Anwalt selten relevant.
Privacera: bei Konzern-Strukturen mit Data-Lake-Architektur und Compliance-Anforderungen, die zentral verwaltete Policies brauchen.
Komplette On-Prem-LLM-Verarbeitung (Ollama, vLLM): wenn die Mandanten-Vertrauen oder Berufsgeheimnis es erfordert, dass Klartext-PII das Büro gar nicht verlässt.
Wann nicht
Bei vollständig synthetischen oder öffentlich verfügbaren Daten (z.B. Gesetzes-Texte, Verbandsverordnungen): keine Anonymisierung nötig.
Bei on-prem-LLM-Setup ohne Cloud-Touchpoint: Pseudonymisierung optional, weil keine externen Datenverarbeiter ins Spiel kommen. Aber Audit-Log und Zugriffsschutz bleiben wichtig.
Bei Use-Cases, in denen die Mandanten-Identität im Antwort-Kontext zwingend ist (z.B. Vertrags-Drafting): Pseudonymisierung ohne Reverse-Funktion ist hier unbrauchbar. Anonymizer mit lokaler Mapping-Tabelle ist die richtige Wahl.
Bei Daten ohne Personen-Bezug (z.B. Gebäude-Stammdaten, Steuersätze pro Kanton): Anonymisierung sinnlos.
Vorsicht bei Quasi-Identifikatoren-Falle: Name allein zu schwärzen reicht oft nicht. Eine Mandantendatei mit "Geburtsdatum 1958-03-12, PLZ 8001, Beruf Notar" ist oft trotz fehlendem Namen re-identifizierbar (Latanya Sweeneys K-Anonymitäts-Paper, 2002). Quasi-Identifikatoren brauchen Generalisierung oder Löschung.
Vor- und Nachteile
STÄRKEN
- Presidio: Open Source, lokal lauffähig, MIT-Lizenz, breite PII-Abdeckung
- Anonymizer: Reverse-Pseudonymisierung erhält Mandanten-Kontext im Output
- K-Anonymität ARX: mathematisch garantierte Schutzstufe
- Differential Privacy: nachweisbare Privacy-Garantie auch bei wiederholten Abfragen
SCHWÄCHEN
- Pseudonymisierung allein erfüllt DSG nicht: Daten bleiben Personendaten
- Quasi-Identifikator-Falle: Name schwärzen reicht nicht
- Schweizer Custom Recognizers müssen selbst gebaut werden (AHV, CHE-MWST)
- Differential Privacy senkt Daten-Nutzwert deutlich, Tuning aufwendig
Häufige Fragen
Reicht Pseudonymisierung für DSG?
Pseudonymisierte Daten bleiben Personendaten und unterliegen weiterhin DSG. Sie reduzieren das Risiko, befreien aber nicht von Zweckbindung, Löschpflichten, Information der Betroffenen und Auftragsverarbeitungsverhältnissen. Echte Anonymisierung (mit Generalisierung von Quasi-Identifikatoren und K-Anonymität) fällt aus dem DSG-Scope.
Wie erkenne ich Schweizer PII?
Presidio out-of-the-box deckt EU-IBAN, EU-Personalausweise. Für Schweizer Spezifika braucht es Custom Recognizers: AHV-Nummer (756.xxxx.xxxx.xx, Modulo-11-Prüfziffer), MWST-Nummer (CHE-xxx.xxx.xxx), Kantonsabkürzungen, Schweizer Strassen-Patterns. Wir pflegen eine offene Sammlung dieser Recognizer im fairlane.systems-Repository.
Was passiert beim Re-Identifikation-Angriff?
Ein Angreifer kombiniert pseudonymisierte Daten mit öffentlich verfügbaren Quasi-Identifikatoren (Geburtsdatum, PLZ, Beruf), um die Identität wiederherzustellen. Sweeneys Studie zeigte 1997, dass 87 Prozent der US-Bevölkerung allein durch Geburtsdatum, PLZ und Geschlecht eindeutig identifizierbar sind. Gegenmittel: K-Anonymität mit K>=5, L-Diversität bei sensiblen Attributen.
Wie performant ist Presidio bei Volumen?
Mit Default-Konfiguration (spaCy de_core_news_lg-Modell) verarbeitet Presidio ca. 50 bis 100 Seiten pro Sekunde auf einer 8-vCPU-Maschine. Bei 100.000 Seiten pro Tag reicht ein Server mit 16 vCPUs. Sehr grosse Volumen (Millionen Dokumente) lassen sich über Spark-Connector parallelisieren.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?