JAHRESABSCHLUSS-QS · USE-CASE

KI-gestützte Qualitätssicherung beim Jahresabschluss

Anomalien in Buchungssätzen vor der Revision aufspüren: Benford-Test, Saldenvergleich, Periodenabgrenzungen. Mensch entscheidet, KI flaggt.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist KI-QS im Jahresabschluss?

Vor jeder Revision steht die Qualitätssicherung der Buchhaltung. Ein Treuhand-Büro arbeitet im Februar bis April typischerweise 60 bis 80 Stunden pro mittelständischem Mandat an Belegprüfung, Saldenabstimmung und Plausibilisierung. KI-gestützte Qualitätssicherung verkürzt diese Arbeit, indem sie die Sample-Auswahl automatisiert und Auffälligkeiten markiert, die ein Mensch danach prüfen muss.

Der Begriff meint konkret: Ein Skript zieht das Hauptbuch des Mandanten (Abacus, Bexio, Banana, SAP, Sage), berechnet pro Konto und pro Periode statistische Kennzahlen, vergleicht sie mit Vorjahr und Branche, und übergibt verdächtige Datensätze an einen Sprachmodell-gestützten Klassifikator, der eine erste Begründung formuliert. Das Resultat ist eine priorisierte Liste mit drei Spalten: Buchung, Auffälligkeit, Vorschlag für Prüfhandlung. Diese Liste landet auf dem Tisch der Treuhänderin – nicht im Postausgang, nicht im Revisionsbericht.

Der Use-Case ist explizit NICHT vollautomatisch. Sprachmodelle können Wesentlichkeitsgrenzen nach PS 240 nicht eigenständig festlegen, und das Schweizer Obligationenrecht verlangt für den Revisionsbericht die Unterschrift einer zugelassenen Revisionsexpertin. Die KI ist Vorprüfer, nicht Prüfer.

Warum es wichtig ist

Drei Gründe sprechen für den Einsatz. Erstens: Sample-Auswahl ist heute oft willkuerlich oder folgt einer starren Quote ("jeden 50. Beleg"). Ein KI-Vorprüfer wählt nach Risiko – Buchungen am Geschäftsjahresende, ungewöhnliche Gegenkonten, Rundungen auf glatten Tausenden. Die Sample-Quote sinkt, die Trefferquote steigt.

Zweitens: Benford-Tests, Saldenkonsistenz-Prüfungen und Periodenabgrenzungs-Plausibilisierung sind mathematisch klar definiert, aber manuell mühsam. Tools wie ACL und IDEA bieten das seit Jahren – sind aber teuer und im Treuhand-Mittelstand selten lizenziert. Ein offenes Python-Skript mit Pandas und einem LLM-Wrapper liefert 80 Prozent des Mehrwerts zu einem Bruchteil der Kosten.

Drittens: Dokumentation. Jeder Prüfschritt wird automatisch protokolliert (siehe Audit-Trail nach Art. 957a OR). Wenn die Revisorin später fragt, warum eine bestimmte Buchung nicht im Sample war, gibt es eine Antwort mit Zeitstempel, eingesetztem Modell und Prompt. Das ist nicht nur Compliance – es ist Verteidigung gegen Haftungs-Vorwürfe.

Die EXPERTsuisse-Prüfstandards (PS 240, Verantwortung des Prüfers für Betrug) anerkennen seit 2024 ausdrücklich datenanalytische Verfahren als Bestandteil der "weiteren Prüfhandlungen". Wer KI-QS einsetzt, ist nicht ausserhalb der Norm – er ist innerhalb der modernen Prüfpraxis.

Wie es funktioniert

Die Pipeline läuft in fünf Stationen.

Datenextrakt: Das Hauptbuch des Mandanten wird über die ERP-Schnittstelle gezogen – Abacus REST-API, Bexio API, Banana XML-Export, SAP via RFC. Wir empfehlen, mit einer Read-only-Verbindung zu arbeiten und das Buch in eine separate Prüfdatenbank (DuckDB lokal, PostgreSQL on-prem) zu kopieren. Originaldaten bleiben unberührt.

Statistische Vorprüfung: Auf dem Prüfkopie laufen mathematische Tests. Benford-Test prüft die Verteilung der führenden Ziffer in Aufwand-Konten; signifikante Abweichungen weisen auf Manipulationen hin. Saldenvergleich rechnet pro Konto Vorjahr versus Berichtsjahr und flaggt Differenzen über dem Wesentlichkeitsgrenzwert (typischerweise 1 Prozent der Bilanzsumme oder 5 Prozent des Reingewinns, nach PS 320). Periodenabgrenzungs-Prüfung sucht Buchungen am 31. Dezember und 1. Januar, die ungewöhnlich gross oder ungewöhnlich rund sind.

RAG-Lookup auf Branchen-Kennzahlen: Eine Vektor-Datenbank hält Wesentlichkeitsgrenzen, Branchen-Benchmarks (Schweizerische Treuhand-Kammer, KOF-Daten) und interne Wegleitungen. Pro verdächtige Buchung wird die passende Norm gezogen und dem Sprachmodell als Kontext mitgegeben.

LLM-Klassifikation: Das Modell bekommt Buchung plus Norm plus Branchen-Vergleich und formuliert eine erste Einschätzung: "Buchungssatz 4400/1100 über CHF 42.000 am 30.12., Vorjahres-Saldo 4400 war CHF 8.000. Anomalie-Score 0.87. Vorschlag: Prüfen, ob es sich um eine Periodenabgrenzung handelt; Beleg anfordern." Wir empfehlen Claude Sonnet oder GPT-4.1 für Klassifikation, über LiteLLM geroutet. Mistral Large lokal für Mandate unter Berufsgeheimnis.

Mensch-Entscheid: Die Treuhänderin bekommt eine Liste mit drei Spalten: Buchung, Anomalie-Begründung, vorgeschlagene Prüfhandlung. Sie entscheidet, ob sie prüfen will, einen Beleg anfordert, oder das Flag verwirft. Jede Entscheidung wird im Audit-Trail protokolliert.

NICHT vollautomatisch: Das Modell stellt nichts in den Revisionsbericht, sendet nichts an Mandanten, vergibt keinen Prüfvermerk.

QS-Workflow in 6 Schritten

01Mandat-Onboarding: ERP-Read-only-Zugang einrichten, Kontenplan und Wesentlichkeitsgrenze (PS 320) festlegen, Vorjahres-Hauptbuch in Prüfdatenbank laden.
02Statistische Vorprüfung starten: Benford-Test auf Aufwandskonten, Saldenvergleich Vorjahr-Berichtsjahr, Periodenabgrenzungs-Suche am Geschäftsjahres-Wechsel.
03RAG-Kontext bereitstellen: Branchen-Benchmarks (KOF, Treuhand-Kammer), interne Wegleitungen und PS-Normen indexieren.
04LLM-Klassifikation laufen lassen: Pro Anomalie eine Einschätzung mit Anomalie-Score, Begründung und Prüfvorschlag generieren. Audit-Trail mit Modell, Prompt und Zeitstempel speichern.
05Mensch-Review: Treuhänderin sichtet die Top-Anomalien, entscheidet pro Eintrag (prüfen, Beleg anfordern, verwerfen). Jede Entscheidung wird protokolliert.
06Schlussbericht: Liste der durchgeführten Prüfhandlungen, gefundenen Befunde und Begründung der nicht-geprüften Sätze als Anhang zum Revisions-Arbeitspapier (PS 230).

Wann einsetzen

KI-QS eignet sich besonders für Mandate mit hoher Buchungs-Anzahl (ab ca. 5.000 Buchungen pro Jahr), klar strukturierter Kontenplan (KMU-KMU-Kontenplan Schweiz, SwissGAAP FER) und stabilem Geschäftsmodell. Handel, Gastronomie, Bau und Industrie liefern verlässliche Anomalie-Signale, weil die Branchen-Benchmarks gut dokumentiert sind.

Gut geeignet ist die Methode auch für Folgeprüfungen: Wenn das Vorjahr revidiert ist, hat der Vergleich Aussagekraft. Erstprüfungen brauchen mehr manuelle Vorarbeit, weil keine Baseline existiert.

Ebenfalls sinnvoll bei Mandanten, die im Quartal oder Halbjahr abschliessen – die Pipeline läuft inkrementell, jeder Buchungsblock wird einmal geprüfte, das Sample wird nicht jedes Mal von Null aufgebaut.

Im Verbund mit der Revisionsplanung (siehe Prüfungs-SOP): Die KI-QS-Liste ist Input für die Risk-Assessment-Phase, nicht Ersatz dafür.

Wann NICHT

Nicht geeignet ist die Methode für Erstmandate mit chaotischer Buchhaltung – hier muss zuerst die Buchhaltung saniert werden, bevor statistische Tests sinnvoll sind. Auch bei Holding-Strukturen mit komplexer Konsolidierung versagen Standard-Tests, weil die Buchungs-Verteilung von der Konsolidierungs-Logik geprägt ist, nicht vom operativen Geschäft.

Nicht einsetzen bei sehr kleinen Buchhaltungen (unter 500 Buchungen pro Jahr) – der Aufwand für Daten-Extrakt und Pipeline-Konfiguration steht in keinem Verhältnis zum Mehrwert.

Auch nicht einsetzen, wenn das Mandat unter besonderem Datenschutz steht (Klientenliste in der Privatkanzlei, Treuhand-Mandate mit Berufsgeheimnis-Schutz Art. 321 StGB) und Sie das Sprachmodell nur in einer geprüften On-Premise-Konfiguration betreiben können. Ohne lokale Hosting-Option (Mistral, Ollama mit Llama 3.1) ist KI-QS in diesem Segment nicht zulässig.

Die KI ersetzt NICHT die Prüfhandlung selbst. Wer aus dem Anomalie-Flag direkt einen Revisionsbefund macht, ohne den Beleg eingesehen zu haben, verletzt PS 500 (Prüfnachweis).

Vor- und Nachteile

STÄRKEN

Sample-Auswahl wird risiko-gewichtet statt willkuerlich – Trefferquote steigt deutlich
Benford-Test und Saldenkonsistenz ohne ACL/IDEA-Lizenz für einen Bruchteil der Kosten
Audit-Trail nach Art. 957a OR automatisch – jeder Prüfschritt mit Zeitstempel
Skalierbar: läuft inkrementell auch im Quartal, nicht nur am Jahresende

SCHWÄCHEN

Erstmandate ohne Vorjahres-Baseline liefern schwache Anomalie-Signale
Holding-Strukturen mit komplexer Konsolidierung schlagen Standard-Tests
Pipeline-Pflege nötig: ERP-Schnittstellen ändern sich, Branchen-Benchmarks veralten
Risiko der falschen Sicherheit: Wer der Anomalie-Liste blind folgt, übersieht Befunde ausserhalb der statistischen Verfahren

Häufige Fragen

Ersetzt KI-QS die Revisionsplanung?

Nein. Die Pipeline liefert Daten-getriebene Anomalie-Signale. Die Revisionsplanung nach PS 300 bleibt Aufgabe der Revisorin: Risiko-Einschätzung auf Mandantsebene, Verständnis der internen Kontrolle, Festlegung der Prüfstrategie. KI-QS ist Input für das Risk-Assessment, nicht Ersatz dafür.

Wie verteidigen wir das Verfahren vor der RAB?

Drei Punkte: (1) Die KI ist Vorprüfer, nicht Prüfer – die Mensch-Entscheidung pro Anomalie ist protokolliert. (2) Die statistischen Verfahren (Benford, Saldenvergleich) sind in der Prüfliteratur seit Jahrzehnten anerkannt – die KI macht sie nur effizient. (3) Audit-Trail nach Art. 957a OR: Modell-Version, Prompt, Eingabedaten und Entscheidung werden 10 Jahre aufbewahrt.

Was kostet das pro Mandat?

Bei einem KMU-Mandat mit 20.000 Buchungen pro Jahr: ca. CHF 8 bis 25 LLM-Tokens-Kosten pro Lauf (Claude Sonnet, RAG-Kontext eingerechnet). Plus einmalige Einrichtung der ERP-Anbindung und der Prüfdatenbank (typischerweise 4 bis 12 Stunden Treuhand-Aufwand). Im Vergleich zu ACL- oder IDEA-Lizenzen (ab CHF 3.500/Jahr) deutlich günstiger.

Welche ERP-Systeme werden unterstützt?

Schweizer Standard: Abacus (REST-API ab Version 2023), Bexio (REST-API), Banana (XML-Export), SAP Business One (Service-Layer-API), Sage 50 (ODBC). Für Sonderfälle gibt es einen CSV-Pfad: Hauptbuch als CSV/Excel exportieren, die Pipeline lädt das ein. Aufwand für einen CSV-Adapter typischerweise 2 bis 4 Stunden.

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen