SHAREPOINT · INTEGRATION

SharePoint und OneDrive: Dokumenten-RAG-Quelle für Treuhand und Kanzlei

SharePoint und OneDrive bilden den Dokumenten-Speicher der meisten CH-Kanzleien. REST-API und Graph für KI-Indexierung, CSOM als Legacy.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist SharePoint und OneDrive?

SharePoint Online und OneDrive for Business sind die Dokumenten-Speicher der Microsoft-365-Plattform. OneDrive ist der persönliche Speicher pro Benutzer (typisch 1 TB pro Benutzer in Business-Plänen), SharePoint ist der gemeinsame Team- und Projekt-Speicher mit Site-, Library- und Listen-Konzept. Stand Mai 2026 sind in CH-Treuhand- und Anwalts-Kanzleien geschätzte 70 bis 85 Prozent der digitalen Mandanten-Dokumente in SharePoint oder OneDrive.

Für Integrationen gibt es drei API-Generationen, die parallel existieren. Erstens: die SharePoint REST API (Endpoints unter /_api/web/), die seit SharePoint 2013 verfügbar ist und in vielen Bestands-Integrationen lebt. Zweitens: die Microsoft Graph API (siehe Graph-Topic), die der empfohlene Weg für neue Integrationen ist und Files, Lists, Sites einheitlich abdeckt. Drittens: das CSOM (Client-Side Object Model) mit C#- oder JavaScript-Bibliothek, das viele Bestands-Tools nutzen. CSOM ist seit 2023 als Legacy markiert; Neu-Implementierungen sollten Graph nutzen.

Die wichtigsten Graph-Endpunkte für Dokumente sind /me/drive/items (OneDrive-Dateien), /sites/{site-id}/drive/items (SharePoint-Library-Dateien), /sites/{site-id}/lists/{list-id}/items (SharePoint-Listen). Datei-Bytes läuft über den /content-Sub-Endpunkt (z.B. /items/{id}/content). Für grosse Dateien gibt es einen Resumable-Upload-Mechanismus mit Upload-Sessions.

Mai 2026 ist der Trend zu Modern Pages und Modern Lists. Klassische SharePoint-Sites (mit Master-Pages, Web Parts, Site Workflows) werden seltener neu angelegt; neue Sites nutzen Modern Pages mit reactiven Web Parts und einer schlankeren API.

Warum es für CH-Treuhand wichtig ist

Treuhand- und Anwalts-Kanzleien arbeiten dokumenten-zentriert. Verträge, Jahresabschluesse, Mandanten-Korrespondenz, Steuer-Erklärungen, Sitzungs-Protokolle, Statuten, Aktien-Bücher, Lohnausweise, Spesen-Belege. All das liegt in der Regel auf SharePoint (gemeinsame Mandanten-Sites) oder OneDrive (persönliche Notizen, Entwürfe). Die Volumina sind beachtlich: Eine 10-Personen-Kanzlei sammelt typischerweise 50.000 bis 500.000 Dokumente in 5 Jahren.

Die KI-Schicht über SharePoint/OneDrive ist fast immer eine RAG-Pipeline. Dokumente werden via Graph-API gelesen, durch eine OCR-Schicht geführt (falls nötig), in Chunks zerlegt, embedded und in einer Vektor-DB (Qdrant) indexiert. Wenn ein Sachbearbeiter eine Frage stellt, sucht die KI in der Vektor-DB die relevantesten Stellen und antwortet mit Quellenangabe und Direkt-Link zum SharePoint-Dokument.

Drei Use-Cases haben den höchsten ROI. Erstens: Vertrags-Indexierung. Alle Mandanten-Verträge werden semantisch durchsuchbar. Frage: "Welche Mandanten haben eine Kündigungsfrist unter 30 Tagen?" Die KI durchsucht 5.000 Verträge und liefert eine Liste mit Quellen.

Zweitens: Präzedenzfall-Suche für Anwalts-Kanzleien. Eine neue Mandanten-Frage wird mit ähnlichen früheren Fällen abgeglichen. Die KI findet 3 ähnliche Fälle aus der Praxis-Bibliothek und liefert die zugehörigen Argumentationen und Ergebnisse.

Drittens: Onboarding-Wissen. Ein neuer Sachbearbeiter kann der KI Fragen stellen, die ein erfahrener Kollege beantworten würde. Die KI antwortet aus der internen Wissensbasis mit klarer Quellenangabe.

Wie es funktioniert

Die Pipeline besteht aus vier Stationen: Discovery (welche Dokumente gibt es?), Ingestion (Datei-Bytes holen), Verarbeitung (OCR, Chunking, Embedding), Index (Vektor-DB und Metadaten).

Discovery läuft über Graph-Calls auf die SharePoint-Sites:

```bash # Alle Sites des Tenants holen curl -X GET "https://graph.microsoft.com/v1.0/sites?search=*" \ -H "Authorization: Bearer $ACCESS_TOKEN"

# Pro Site alle Drives (Dokument-Bibliotheken) holen curl -X GET "https://graph.microsoft.com/v1.0/sites/{site-id}/drives" \ -H "Authorization: Bearer $ACCESS_TOKEN"

# Pro Drive alle Files via delta-Query (inkrementell) curl -X GET "https://graph.microsoft.com/v1.0/sites/{site-id}/drives/{drive-id}/root/delta" \ -H "Authorization: Bearer $ACCESS_TOKEN" ```

Der /delta-Endpunkt ist hier entscheidend. Statt jeden Lauf den kompletten Bestand abzurufen, holen Sie nur die Änderungen seit dem letzten deltaLink. Ein 100.000-Dokumente-Tenant ist so in unter 60 Sekunden inkrementell synchronisiert.

Ingestion holt die Datei-Bytes:

```bash curl -X GET "https://graph.microsoft.com/v1.0/sites/{site-id}/drives/{drive-id}/items/{item-id}/content" \ -H "Authorization: Bearer $ACCESS_TOKEN" \ -o vertrag.pdf ```

Verarbeitung: PDFs gehen durch eine OCR-Schicht (Tesseract, Azure Document Intelligence oder Mistral OCR), Office-Files (docx, xlsx) über dedizierte Parser. Der Text wird in 500- bis 1.000-Token-Chunks geschnitten, jeweils mit 100-Token-Overlap. Embeddings werden mit text-embedding-3-small oder Cohere embed-multilingual berechnet.

Index: Chunks und Embeddings landen in Qdrant. Metadaten (Site, Library, File-Pfad, Last-Modified, Mandant) werden als Payload mitgespeichert. Bei RAG-Anfragen filtert das Retrieval nach Mandant oder Vertraulichkeits-Stufe.

SharePoint/OneDrive-RAG in 5 Schritten

01Graph-App registrieren, Files.Read.All und Sites.Read.All Permissions anfragen, Admin-Consent einholen.
02Discovery-Pipeline aufsetzen: Sites listen, Drives listen, alle Datei-Metadaten via /delta inkrementell holen.
03Datenklasse-Strategie definieren: Welche Dokumente werden indexiert? Whitelist via Metadaten-Filter (Site-Tag, Sensitivity-Label).
04Ingestion-Pipeline aufbauen: Dateien herunterladen, OCR für PDFs, Office-Parser, in 500-1000 Token Chunks zerlegen, embedden.
05Qdrant-Index aufsetzen mit Mandanten- und Permissions-Metadaten, Retrieval filtert nach Benutzer-Berechtigung vor dem LLM-Call.

Wann einsetzen

Die SharePoint/OneDrive-Integration lohnt sich ab etwa 5.000 indexierten Dokumenten und mindestens 5 Personen, die regelmässig nach Inhalten suchen. Unter diesen Werten reicht die SharePoint-eigene Suche oft aus, und der Aufwand für eine RAG-Pipeline ist disproportioniert.

Besonders sinnvoll ist die Integration bei Anwalts-Kanzleien mit Präzedenz-Bibliothek, bei Treuhand-Stellen mit grosser Vertrags-Sammlung, bei Wirtschafts-Prüfern mit Dokumenten-pflichtigen Aufbewahrungs-Ordnern. Bei diesen Profilen ist die Such-Qualität der entscheidende Hebel.

Die Integration setzt das SharePoint-eigene Berechtigungs-Modell nicht ausser Kraft. Der RAG-Index ehrte die SharePoint-Permissions über Metadaten-Filter: Nur Chunks aus Dokumenten, auf die der anfragende Benutzer Zugriff hat, werden zurückgegeben. Das ist technisch heikel, aber unverzichtbar für Berufsgeheimnis-Mandate.

Wann NICHT

Wenn die Dokumente in einem anderen System liegen (Google Drive, Dropbox, NAS, lokale Server-Shares), ist die SharePoint-Integration nicht der richtige Hebel. Hier braucht es einen anderen Connector oder eine Migration.

Wenn die Dokumenten-Mengen klein sind (unter 1.000 Dokumente) und die Suche nur gelegentlich erfolgt, reicht die SharePoint-eigene Suche aus. Eine RAG-Pipeline lohnt sich erst ab spürbarem Volumen.

Für hoch-sensible Mandate (etwa anwaltliches Vertrauens-Gespräch, Beratungs-Notiz unter Berufsgeheimnis) ist eine sorgfältige Datenklasse-Strategie nötig. Nicht jedes Dokument darf in einem Vektor-Index landen. Wir empfehlen eine Metadaten-getriebene Indexierungs-Whitelist: Nur Dokumente mit dem Label "RAG-OK" werden indexiert. Die Klassifizierung erfolgt entweder manuell oder durch eine separate KI-Klassifizierungs-Pipeline.

Vor- und Nachteile

STÄRKEN

Graph-API bietet einheitliche und inkrementelle Sync über /delta
SharePoint-Permissions können im RAG-Index respektiert werden
Resumable Uploads und Sessions für grosse Dateien
Microsoft 365 hostet bei Bedarf in der Schweiz, ideal für DSG

SCHWÄCHEN

Permission-Sync ist heikel, falsche Implementierung kann Vertraulichkeit verletzen
CSOM in Bestands-Tools muss aktiv migriert werden, ist Legacy
OCR für grosse Vertrags-Bestände kann kostspielig sein
Modern vs Classic Sites haben unterschiedliche API-Semantiken in Detail

Häufige Fragen

Was kostet die SharePoint-Integration?

Die API-Nutzung ist in Microsoft 365 enthalten. Was kostet, sind die KI-Komponenten: Embedding (CHF 15-50 für initialen Index von 50.000 Dokumenten), OCR (variabel, je nach Anbieter), Vektor-DB Storage (Qdrant on-prem ab CHF 50/Monat, Qdrant Cloud ab USD 50/Monat) und LLM-Calls für die Beantwortung.

Wie werden Permissions respektiert?

Pro Datei werden die SharePoint-Permissions zur Indexierungs-Zeit ausgelesen und als Metadaten im Vektor-Index gespeichert. Bei einer Anfrage filtert das Retrieval nach den Benutzer-Berechtigungen, bevor die Chunks an das LLM gehen. Wichtig: Permission-Änderungen müssen propagiert werden, sonst ist der Index stale. Wir empfehlen einen täglichen Re-Sync der Permissions.

CSOM oder Graph?

Graph für Neu-Implementierungen. CSOM ist als Legacy markiert, Microsoft empfiehlt aktiv den Wechsel. Bestands-Tools mit CSOM laufen weiter, aber neue Features kommen nur in Graph.

Wie gehe ich mit grossen Dateien um?

Für Dateien über 4 MB nutzen Sie Resumable Upload Sessions via POST /items/{id}/createUploadSession. Sie laden in Chunks von 320 KiB bis 60 MiB hoch. Für Download grosser Dateien teilen Sie via Range-Headers in mehrere Calls. PDF-Dateien über 100 MB sind in RAG selten sinnvoll und sollten vor der Ingestion gesplittet werden.

Quellen

Microsoft Learn: Working with SharePoint sites in Microsoft Graph · 2026-05
Microsoft Learn: OneDrive in Microsoft Graph · 2026-05
Microsoft Learn: Track changes for a OneDrive/SharePoint drive (delta) · 2026-04
Microsoft: SharePoint CSOM deprecation guidance (2026) · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen