OFFERTEN · ANWENDUNGSFALL

KI-gestützte Offerten-Generierung: 2 bis 4 Stunden Arbeit in 20 Minuten

Aus Anfrage -> RAG auf vergangene Offerten (Preisstaffeln, Standardklauseln) -> sauberer Entwurf in Bexio/Klara-Format. Sachbearbeiter prüft und sendet manuell.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum es geht

Die Offerten-Erstellung ist in vielen Schweizer KMU der grosse versteckte Zeitfresser. Eine seriose Offerte für ein Handwerker-Mandat, eine IT-Dienstleistung oder ein Beratungs-Projekt verlangt 2 bis 4 Stunden Arbeit: Anfrage lesen, Ähnliches in alten Mandaten finden, Preise kalkulieren, Standardklauseln zusammensuchen, in das Firmen-Layout giessen, gegenprüfen, senden. Wer das in einem 6-Personen-Büro zweimal pro Woche macht, verliert pro Monat 16 bis 32 Stunden – Zeit, die direkt in Akquise oder Bearbeitung fliessen könnte.

KI-gestützte Offerten-Generierung bedeutet: eine eingehende Anfrage (per Mail, Formular oder Mandantenportal) wird gelesen, gegen alte Offerten und Kalkulations-Vorlagen abgeglichen, und es entsteht ein Entwurf in Bexio-, Klara- oder eigenem Format. Preise stammen aus der hinterlegten Preisstaffel, Standardklauseln aus der Kanzlei-Bibliothek. Der Sachbearbeiter prüft, ergänzt individuelle Aspekte, drückt "senden".

Wichtig: das ist kein Auto-Pilot. Der Mensch trifft die kommerzielle Entscheidung (Rabatt, Spezialwunsch, Beziehungsaspekt). Die Maschine liefert die handwerkliche Vorarbeit. In dieser Aufteilung sinkt der Aufwand pro Offerte von 2 bis 4 Stunden auf 15 bis 30 Minuten. Bei einem 6-Personen-IT-Dienstleister mit 8 Offerten pro Monat sind das 15 bis 25 Stunden Ersparnis im Monat.

Häufig im Handwerk, in der IT-Dienstleistung, in der Beratung, in der Treuhand für Mandatsangebote, in der Werbeagentur. Weniger im klassischen Produkthandel, wo Preise in Listen stehen und keine individuelle Kalkulation nötig ist.

Warum es wichtig ist

Drei Punkte machen Offerten-Automation 2026 zu einem der lukrativsten Use-Cases in Schweizer KMU.

Erstens: direkter Umsatz-Hebel. Anders als bei Email-Triage oder Belegerfassung ist die gewonnene Zeit hier sofort verkaufsbar – eine zweite Offerte pro Woche bedeutet mehr Kunden in der Pipeline. Wenn von 10 Offerten typisch 4 zum Abschluss kommen (40-Prozent-Quote), bringt jede zusätzliche Offerten-Kapazität einen Umsatz-Hebel. Bei einem mittleren Auftragswert von CHF 8000 sind das CHF 32000 Mehrumsatz im Quartal pro zusätzlicher wöchentlicher Offerte.

Zweitens: Reaktionsgeschwindigkeit. In vielen Branchen entscheidet die Antwortzeit über das Mandat. Eine Anfrage am Dienstag, eine Offerte am Mittwoch früh schlägt eine Anfrage am Dienstag, eine Offerte am Freitag-Nachmittag. Mit KI-Vorarbeit kann der Sachbearbeiter binnen 2 Stunden statt 2 Tagen reagieren – der Unterschied zwischen "schnell" und "langsam" im Auge des Anfragenden.

Drittens: Konsistenz der Preisbildung. KI zieht aus der Preis-Historie und macht zwei Sachbearbeiter, die unabhängig Offerten erstellen, vergleichbar. Das reduziert das Phänomen, dass zwei ähnliche Mandate beim selben Büro mit CHF 6500 und CHF 8200 offeriert werden, je nachdem wer gerade zuständig ist. Konsistente Preise bedeuten konsistente Marge.

Das Risiko ist die Kehrseite des Hebels: zu schnelle Standard-Antworten können die Beziehungsqualität beschädigen. Eine Anfrage, die viel zwischen den Zeilen sagt ("wir sind unzufrieden mit unserem aktuellen Anbieter weil…"), verdient eine handgeschriebene Antwort, keinen Bexio-Standard-Template-Aufguss. Der Sachbearbeiter muss diese Fälle erkennen – das ist genau seine Wertschöpfung.

Wie die Pipeline funktioniert

Die Pipeline läuft in fünf Schichten.

Schicht 1 – Eingangsverarbeitung. Die Anfrage erreicht das Büro per Mail, Webformular oder Mandantenportal. n8n löst den Workflow aus, vergibt eine Vorgangs-ID, speichert die Original-Anfrage und alle Anhänge im Audit-Log.

Schicht 2 – Anfragen-Verständnis. Ein Sprachmodell (Mistral Large für EU-Hosting, alternativ Claude Sonnet) liest die Anfrage und extrahiert strukturierte Felder: Leistungsart, Volumen, Branche des Anfragenden, Zeitdruck, Spezialwünsche, Hinweise auf Budget. Output ist ein JSON-Schema, das die nächsten Schichten parametrisiert.

Schicht 3 – RAG über vergangene Offerten. Ein Qdrant-Lookup durchsucht die Offerten-Bibliothek der Kanzlei (typisch 200 bis 2000 alte Offerten, plus die hinterlegte Preisstaffel-Tabelle, plus Standardklauseln-Sammlung). Der Retriever liefert die 8 ähnlichsten alten Offerten und die für die Leistungsart passenden Klauseln. Wichtig: nur eigene Offerten, nicht aus dem Netz angesaugte. Die eigene Preis-Logik bleibt das Geheimnis des Hauses.

Schicht 4 – Entwurfsgenerierung. Das Sprachmodell baut aus den drei Bausteinen – extrahierte Anfrage, gefundene Ähnlich-Offerten, hinterlegte Preisstaffel – einen Offerten-Entwurf. Strukturierte Ausgabe in Bexio-Offerten-Format (REST-API, Beleg-Typ "offer"), Klara-Format oder firmen-eigene Word/PDF-Vorlage. Pflichtfelder werden gefüllt, Preise berechnet, Standardklauseln eingefügt. Ein Hinweis-Block am Ende listet Stellen, an denen die KI unsicher war oder eine handsignierte Entscheidung empfiehlt.

Schicht 5 – Mensch-Prüfung und Versand. Der Entwurf landet im Bexio-Belege-Bereich als Status "Entwurf" (Bexio API: POST /2.0/kb_offer). Der Sachbearbeiter öffnet, prüft, passt an, akzeptiert oder verwirft. Bei Freigabe geht die Offerte über Bexio direkt an den Anfragenden – mit Track-Funktion (Geoffnet/Akzeptiert/Abgelehnt). Audit-Log dokumentiert jede Änderung zwischen KI-Entwurf und finaler Version, was für das spätere Lernen wichtig ist.

Lern-Loop. Akzeptierte Offerten landen mit den Mensch-Korrekturen wieder im Qdrant-Index. So lernt die Pipeline über 3 bis 6 Monate, welche Anpassungen der Sachbearbeiter typisch macht, und die Erstentwurf-Qualität steigt. Wichtig: die Anpassungen werden anonymisiert (keine Kundennamen) bevor sie als Beispiele im Retrieval auftauchen.

Pipeline in 7 Schritten

01Eingang: n8n erfasst Anfrage aus Mail/Webformular/Portal, vergibt Vorgangs-ID, Audit-Log.
02Strukturierung: Mistral Large extrahiert Felder (Leistung, Volumen, Branche, Zeitdruck, Spezialwünsche) als JSON.
03RAG-Lookup: Qdrant liefert Top-8 ähnliche alte Offerten plus passende Standardklauseln.
04Preisberechnung: hinterlegte Preisstaffel + Mengenrabatte werden numerisch angewendet (nicht durch das LLM "geschätzt").
05Entwurf: LLM baut Offerten-Body, Klauseln-Block, Preis-Tabelle. Ausgabe als Bexio-Belege via POST /2.0/kb_offer oder Word/PDF nach Vorlage.
06Prüfung: Sachbearbeiter öffnet Entwurf in Bexio, prüft Preise und Klauseln, ergänzt persönliche Elemente.
07Versand und Lernen: nach Freigabe Versand mit Bexio-Tracking. Akzeptierte Offerten plus Korrekturen wandern anonymisiert in Qdrant.

Wann einsetzen

Offerten-Automation lohnt sich ab etwa 4 bis 6 Offerten pro Monat. Darunter lohnt sich der Setup-Aufwand nicht. Ab 15 Offerten pro Monat amortisiert sich das Projekt typisch in 4 bis 7 Monaten – und der Hebel ist umsatzwirksam, nicht nur kostensenkend.

Konkrete Konstellationen: IT-Dienstleister mit 8 bis 20 Angeboten pro Monat für Implementierungs- und Wartungsprojekte; Handwerksbetriebe mit kantonal unterschiedlichen Tarifen und vielen Offerten für Sanierungs- oder Umbau-Arbeiten; Berater und Coaches mit individuellen Mandats-Offerten; Marketing- und Werbeagenturen mit Projekt-Offerten; Treuhand-Büros, die neue Mandanten-Offerten erstellen; Büro-Service-Dienstleister mit wiederkehrenden Service-Angeboten.

Gut geeignet: Büros mit Bexio, Klara oder Run-my-Accounts (REST-API-Anbindung Standard), Büros mit zumindest 100 alten Offerten als RAG-Basis, Büros mit klaren Preisstaffeln (Stundensätze, Modulpreise, Mengenrabatte). Schwierig wird es bei stark individuellen Projekten ohne wiederkehrende Muster – dort liefert die KI weniger Hebel.

Eine zusätzliche Anwendung, die häufig übersehen wird: Standardisierung von Vertragsmustern. Wenn ein Sachbearbeiter regelmässig "Wartungsvertrag Service-Level Gold/Silver/Bronze" anbietet, kann die KI sicherstellen, dass alle drei Stufen-Texte konsistent sind und die Preisstufen nicht durch Copy-Paste-Fehler verschwimmen.

Wann NICHT einsetzen

Nicht einsetzen, wenn die Offerten-Bibliothek zu dünn ist. Unter 50 alten Offerten fällt das RAG-Retrieval qualitativ ab, und der Erstentwurf wird unzuverlässig. In diesem Fall ist es sinnvoller, sechs Monate lang strukturiert alte Offerten zu digitalisieren und zu taggen – und erst dann den Pilot zu starten.

Nicht einsetzen, wenn das Büro mit Kunden eine sehr persönliche Beziehung pflegt und Standardisierung als Beziehungsabbau wahrgenommen würde. In manchen Treuhand-Mandaten ist die handschriftliche Offerte mit handgeschriebener persönlicher Note Teil der Wertschöpfung. Hier wäre KI-Generation sogar kontraproduktiv.

Nicht einsetzen, wenn die Preisstaffel im Büro nicht dokumentiert ist und im Kopf eines Inhabers existiert. KI kann nicht aus Bauchgefühl rechnen. Der erste Schritt ist hier die Dokumentation der Preislogik – was ohnehin für Nachfolge-Planung und steuerliche Klarheit nützlich ist.

Nicht einsetzen ohne Pflicht-Freigabe-Schritt. Auch wenn der Entwurf optisch perfekt aussieht: eine automatisch verschickte Offerte ohne menschliche Prüfung ist ein Risiko für die Marge und für die Aussendarstellung. Bezahlt wird in CH-KMU am Ende über Vertrauen, nicht über Geschwindigkeit allein.

Vor- und Nachteile

STÄRKEN

Offerten-Erstellung von 2-4h auf 15-30 Min – direkter Hebel auf Umsatz-Pipeline
Schnellere Antwortzeit gegenüber Anfragenden, Wettbewerbsvorteil in zeitsensitiven Branchen
Konsistente Preisbildung zwischen Sachbearbeitern, weniger Marge-Schwankung
Lern-Loop lässt die Pipeline über 6 Monate spürbar besser werden

SCHWÄCHEN

Setup erfordert eine sortierte Offerten-Bibliothek (mind. 50 alte Offerten, idealerweise getaggt)
Preislogik muss dokumentiert sein – Kopf-Wissen reicht nicht
Bei sehr persönlichen Mandanten-Beziehungen kann Standardisierung beziehungsschädlich sein
Pflicht-Prüfung muss diszipliniert eingehalten werden, sonst entstehen Marge- und Reputations-Risiken

Häufige Fragen

Wie wird sichergestellt, dass die KI keine Preise erfindet?

Preise werden nicht vom LLM erzeugt. Die Pipeline trennt strikt: LLM liefert die strukturierte Anfragen-Analyse, ein deterministisches Modul (Python, JavaScript) wendet die hinterlegte Preisstaffel an. Das LLM darf die Preise dann im Entwurf einbinden – aber niemals frei berechnen. Tests vor Go-Live prüfen mit synthetischen Anfragen, ob die berechneten Preise mit Hand-Rechnung übereinstimmen.

Was passiert, wenn der Anfragende eine Branche oder Leistung ist, die wir noch nie offeriert haben?

Die Pipeline erkennt das über niedrige RAG-Ähnlichkeits-Werte (cosine < 0.55). In diesem Fall wird kein Entwurf produziert. Stattdessen geht ein strukturierter Hinweis an den Sachbearbeiter: "Neue Konstellation. Keine ausreichend ähnliche Vergangenheits-Offerte. Bitte manuell offerieren und Ergebnis im Lern-Loop hinterlegen, damit folgende Anfragen besser bedient werden." So lernt das System aktiv aus neuen Fällen.

Wie integriert sich die Pipeline mit Bexio?

Über die offizielle Bexio REST-API. OAuth2 Authorization Code Flow erzeugt einen Access-Token, mit dem das Endpoint POST /2.0/kb_offer aufgerufen wird. Pro-Account haben unbegrenzte API-Calls; Standard 100 pro Tag (Stand 2026). Die n8n Bexio-Node deckt das ab. Klara, AbaConnect (Abacus) und Run-my-Accounts haben vergleichbare REST-APIs.

Wie lange dauert die Einführung?

6 bis 8 Wochen. Woche 1-2: Sichtung und Tagging der Vergangenheits-Offerten (das ist der teuerste Schritt, oft übersehen). Woche 3: Dokumentation der Preisstaffel. Woche 4: Bexio/Klara-Anbindung und n8n-Workflow. Woche 5-6: Erste Entwürfe im Schatten-Modus. Woche 7-8: Aktiver Betrieb mit hoher Sachbearbeiter-Prüfung. Stabil-Betrieb erfahrungsgemäss ab Monat 3.

Quellen

Bexio Developer Docs – REST API (kb_offer, OAuth2) · 2026-04
Bexio – API-Request und Pricing (Pro vs. Standard) · 2026-03
n8n.io – Bexio integration node · 2026-02
Mistral AI – La Plateforme pricing Mai 2026 (Large 3 USD 2/6) · 2026-05
TYTOS Schweiz – AI-Agents Praxis-Leitfaden 2026 (Offerten als Use-Case) · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen