fairlane.systems

RAGFLOW · TECH

RAGFlow: das self-hostbare RAG-Komplettsystem mit Web-UI

RAGFlow ist Mai 2026 in v0.15+ ein Open-Source RAG-Komplettsystem von Infiniflow (Apache 2.0). Self-host, fertige Web-UI, Document-Parsing, Chunking, Vektor-DB, Chat. Chinesische Origin, voll selbsthostbar.

Recherche & Faktencheck: · Stand: 2026-05

Was ist RAGFlow?

RAGFlow ist ein Open-Source-Projekt von Infiniflow (Hangzhou, China), das eine komplette RAG-Anwendung als selbsthostbares System anbietet. Apache-2.0-Lizenz, github.com/infiniflow/ragflow. Mai 2026 in Version 0.15+, schnell wachsend (rund 30.000 GitHub-Sterne, monatliche Releases). Das Projekt positioniert sich als All-in-One-Lösung: statt ein Framework zum Bauen einer RAG-Pipeline, ist es ein fertiges Produkt mit Web-UI.

Der Unterschied zu LangChain, LlamaIndex und Haystack ist die Reichweite. Diese drei sind Bibliotheken – Sie schreiben Python-Code, der die Pipeline baut. RAGFlow ist eine deployable Anwendung – Sie starten Docker-Compose, öffnen den Browser auf Port 80, sehen ein fertiges Dashboard mit Knowledge-Base-Verwaltung, Dokument-Upload, Chat-Interface, Workflow-Builder.

Die Komponenten sind als Stack integriert. Document Parser nutzt DeepDoc (eigene Engine für komplexe PDFs mit Tabellen, Bildern, Layouts). Chunker mit mehreren Strategien (general, qa, manual, paper, book, resume, law, ein neuer "knowledge graph"-Chunker). Embedder über BGE-Modelle (Bidirectional Generative Embeddings) oder OpenAI/Cohere/Voyage via API. Vektor-DB intern via Infinity (Infiniflows eigene Vektor-DB) oder extern Elasticsearch. LLM-Anbindung an OpenAI, Anthropic, DeepSeek, Mistral, Ollama, Azure, AWS Bedrock.

Das Web-UI ist Mai 2026 das Highlight. Knowledge-Base-Verwaltung mit Drag-and-Drop-Upload, automatisches Parsing-Status-Tracking, Chunk-Vorschau, manuelle Korrektur. Chat-Assistent-Konfiguration mit Prompts, Modell-Auswahl, Retrieval-Settings. Workflow-Builder mit Drag-and-Drop für komplexere Pipelines (Multi-Step-Agents mit Tool-Use). Team-Verwaltung mit RBAC.

Die Origin ist Mai 2026 ein zweischneidiges Thema. Infiniflow ist eine chinesische Firma; das Repository selbst (Apache 2.0) ist neutral und voll selbsthostbar. Wer es nur on-premise oder auf Hetzner laufen lässt, hat keinen China-Bezug. Aber: ein produktives Setup ohne Vendor-Support bedeutet, dass Bug-Reports und Sicherheits-Anfragen über GitHub-Issues laufen – und das Repository ist primär auf Chinesisch dokumentiert, Englisch ist Zweit-Sprache. Für Schweizer Kunden mit hohem Vendor-Support-Anspruch ein Punkt zu klären.

Warum es wichtig ist

Für CH-KMU und Treuhand-Büros ohne eigenes Entwickler-Team ist RAGFlow Mai 2026 die einfachste Lösung, um eine interne Wissens-DB mit RAG-Chat aufzubauen. Drei Gründe.

Erstens: Time-to-Value. Eine LlamaIndex-Pipeline mit eigener Vektor-DB, eigenem Dokument-Loading und eigenem Chat-Frontend braucht 5-15 Entwickler-Tage, je nach Anspruch. RAGFlow ist in 2-4 Stunden lauffähig – Docker-Compose-up, Browser öffnen, Dokumente hochladen, fertig. Für einen Pilot oder ein PoC-Setup ohne Custom-Anforderungen ist das ein massiver Unterschied.

Zweitens: Web-UI für nicht-technische Nutzer. Eine LlamaIndex-Pipeline ist Code; um eine neue Wissens-DB anzulegen, muss ein Entwickler ran. RAGFlow ermöglicht Domain-Experten (Treuhänder, Anwälte, HR-Verantwortliche) das eigenständige Verwalten von Wissens-Sammlungen. Dokument-Upload per Drag-and-Drop, Chunk-Preview, manuelle Korrektur, Chat-Test – alles im Browser ohne Code.

Drittens: Datenresidenz. RAGFlow ist voll selbsthostbar. Ein Docker-Compose-Stack auf Hetzner Falkenstein oder einer eigenen Workstation – alle Daten bleiben unter eigener Kontrolle. Im Vergleich zu LlamaCloud oder deepset Cloud (beide kommerziell, fremde Infrastruktur) ist das ein klares Compliance-Argument für CH-Anwendungen mit Berufsgeheimnis-Daten.

Der Trade-off ist Customization. RAGFlow ist ein Produkt, kein Framework. Wer spezifische Chunking-Logik braucht, eigene Retrieval-Strategien implementieren will oder die Antwort-Pipeline modifizieren muss, stösst schneller an Grenzen als bei LangChain oder LlamaIndex. Die mitgelieferten Workflow-Builder decken Standard-Fälle, aber tiefe Eingriffe verlangen Code-Änderungen am RAGFlow-Source – was Fork-Aufwand bedeutet.

Für Schweizer Anwendungen: pragmatisches Muster Mai 2026 ist RAGFlow als interne Wissens-DB-Plattform für 80 Prozent der Standard-Fälle (FAQ-Bot, Onboarding-Hilfe, interne Dokumenten-Suche), kombiniert mit Custom-LlamaIndex-Pipelines für die 20 Prozent komplexen Use-Cases (z.B. Steuer-Workflow mit Validierung). RAGFlow alleine reicht oft nicht, ist aber ein guter Schnellstart.

Wie es funktioniert

Das Deployment ist Mai 2026 unkompliziert. Docker-Compose-Stack auf einem Linux-Server mit mindestens 16 GB RAM und 50 GB Disk.

git clone https://github.com/infiniflow/ragflow.git cd ragflow/docker docker compose -f docker-compose.yml up -d

Damit starten die Services: ragflow-server (Web-UI und API), mysql (Metadaten), redis (Cache und Queue), elasticsearch oder infinity (Vektor-Index), minio (Datei-Speicher). Nach 3-5 Minuten ist alles up; die Web-UI läuft auf Port 80.

Erste Schritte im UI: Account anlegen (lokal, kein externer SSO-Provider nötig), LLM-Anbieter konfigurieren (API-Key für OpenAI/DeepSeek/etc. oder lokale Ollama-URL), Embedding-Modell auswählen (BGE-M3 als Default, OpenAI text-embedding-3-small als Alternative).

Knowledge-Base anlegen: Name vergeben, Chunking-Strategie wählen, Embedder festlegen. Dann Dokumente hochladen (PDF, DOCX, Excel, PPT, TXT, HTML, Markdown, Bilder mit OCR). RAGFlow parst die Dokumente mit DeepDoc, zeigt den Parsing-Fortschritt, listet die generierten Chunks. Chunks können manuell editiert, ergänzt oder gelöscht werden – wichtig für Bereinigung schlechter PDFs.

Chat-Assistent: einen neuen Assistenten anlegen, eine oder mehrere Knowledge-Bases als Quelle wählen, System-Prompt schreiben (z.B. "Beantworte Mandanten-Fragen präzise und auf Hochdeutsch"), LLM auswählen (gpt-4o-mini als günstiger Default), Retrieval-Settings (top_k, similarity_threshold). Sofort testbar im Chat-Interface mit Quellenangaben unter jeder Antwort.

Workflow-Builder: für komplexere Pipelines bietet RAGFlow einen Drag-and-Drop-Builder. Nodes wie "Begin", "LLM", "Retriever", "If-Else", "Tool", "Code" werden auf einer Canvas verkabelt. Ähnlich Flowise/Langflow, aber spezialisierter für RAG-Anwendungen. Mai 2026 ist der Workflow-Builder im UI noch jung – für einfache Setups gut, für komplexe Logik kann er an Grenzen stossen.

API-Integration: RAGFlow exponiert eine REST-API (POST /api/v1/conversation/completion) für programmatischen Zugriff. Damit lässt sich der RAGFlow-Chat in eigene Anwendungen einbetten – z.B. eine Treuhand-Mandantenportal mit Embedded-RAG.

Upgrade-Pfad: monatliche Releases über GitHub. Pragmatisch: Version pinnen, halbjährlich Upgrade-Plan prüfen. Daten-Migration bei Major-Version-Wechsel selten nötig (SQL-Schema-Änderungen werden via Migrations gehandhabt).

RAGFlow-Setup in 5 Schritten

  1. 01Server vorbereiten: Linux-Server (Hetzner CPX31 oder grösser) mit min. 16 GB RAM, 50 GB Disk, Docker + Docker Compose installiert. Optional GPU für lokale Embedder oder LLM.
  2. 02Repository klonen und Stack starten: git clone github.com/infiniflow/ragflow, docker compose up -d. Nach 3-5 Minuten ist die Web-UI auf Port 80 verfügbar. nginx davor für HTTPS und Domain-Routing.
  3. 03LLM- und Embedder-Konfiguration: API-Key für OpenAI/DeepSeek oder Ollama-URL eintragen. BGE-M3 als Standard-Embedder oder text-embedding-3-small. Default-Sprache auf Deutsch setzen.
  4. 04Knowledge-Base aufbauen: Dokumente hochladen, Chunking-Strategie wählen (general für Standard, law für Gesetzes-Texte, qa für FAQ-Sammlungen), Parsing-Ergebnisse prüfen, schlechte Chunks manuell korrigieren.
  5. 05Chat-Assistant konfigurieren: System-Prompt, LLM, Retrieval-Settings. Testen mit 30 echten Frage-Antwort-Paaren. REST-API in eigene Anwendung integrieren bei Bedarf. Monitoring und Backup einrichten.

Wann RAGFlow einsetzen

RAGFlow ist die richtige Wahl, wenn (a) ein fertiges RAG-Produkt statt ein Framework gesucht ist, (b) nicht-technische Nutzer Wissens-Sammlungen verwalten sollen oder (c) Time-to-Value wichtiger ist als Customization-Tiefe.

Konkrete Fälle: ein Treuhandbüro will eine interne FAQ-Suche für wiederkehrende Mandanten-Fragen – RAGFlow self-host auf Hetzner, Hochladen der bestehenden FAQ-Sammlung, Mitarbeiter benutzen Chat-UI direkt. Ein Anwaltsbüro will OR/StGB/Verordnungen als Recherche-Hilfe für Junior-Anwälte – RAGFlow mit Law-Chunker, Knowledge-Base mit den PDF-Texten der Gesetze, Chat-Assistant für Frage-Antwort. Eine HR-Abteilung will Onboarding-Dokumente für neue Mitarbeiter als Chatbot – RAGFlow mit Knowledge-Base aus Onboarding-Mappe, eingebettet in das Intranet via REST-API.

Auch für PoC-Phasen ist RAGFlow ideal: in 2-4 Stunden steht die Anwendung, der Pilot läuft, Feedback wird gesammelt. Erst wenn klar ist, was wirklich gebraucht wird, lohnt sich ein Custom-Aufbau mit LlamaIndex.

Wann NICHT

Für Custom-RAG-Pipelines mit eigener Logik (spezielle Chunking, eigene Re-Ranking, komplexe Multi-Source-Routing) ist RAGFlow zu starr. Hier ist LlamaIndex die richtige Wahl.

Für komplexe Multi-Step-Agents mit vielen Tool-Calls ist LangGraph stärker. RAGFlows Workflow-Builder reicht für einfache Sequenzen, nicht für Agentic-Reasoning.

Für Enterprise-Setups mit FINMA-Aufsicht oder Bank-Compliance ist Haystack die robustere Wahl – kommerzieller Support durch deepset, klare SLAs, Auditierbare Pipelines. RAGFlow als Community-Open-Source ohne formellen Support kann für regulierte Branchen heikel sein.

Für Schweizer Kunden mit hohem Vendor-Support-Anspruch ist die chinesische Origin ein Punkt zu klären. Das Projekt selbst ist Apache 2.0 und voll selbsthostbar – keine Datenflüsse nach China bei korrekter Konfiguration. Aber Sicherheits-Updates und Bug-Fixes kommen von Infiniflow; wer einen schweizerischen oder europäischen Vendor will, ist mit Haystack besser bedient.

Für extrem grosse Bestände (mehr als 5 Mio. Dokumente) ist RAGFlow grundsätzlich geeignet, aber die Skalierungs-Erfahrungen sind Mai 2026 noch dünn – produktive Setups dieser Grössenordnung sind selten dokumentiert.

Für Anwendungen mit häufigem LLM-Wechsel und A/B-Tests verschiedener Modelle ist RAGFlow nicht ideal – der Workflow-Builder unterstützt Modell-Vergleich nicht so elegant wie ein Code-Framework.

Für reine API-Integrationen ohne Web-UI-Bedarf ist die Web-UI von RAGFlow toter Code – LlamaIndex oder direkter Eigenbau sind leichter.

Vor- und Nachteile

STÄRKEN

  • Komplettes RAG-Produkt mit Web-UI – kein Eigenbau nötig
  • Time-to-Value 2-4 Stunden statt 5-15 Tage bei Frameworks
  • Nicht-technische Nutzer können Wissens-Sammlungen selbst verwalten
  • Voll selbsthostbar, Apache 2.0, eigene Vektor-DB oder Elasticsearch

SCHWÄCHEN

  • Limitierte Customization-Tiefe – Custom-Pipelines verlangen Source-Fork
  • Chinesische Origin – Vendor-Support für CH/EU-Kunden ein Punkt zu klären
  • Dokumentation primär chinesisch, Englisch zweit-rangig
  • Jung – produktive Skalierungs-Erfahrungen über 5M Dokumente dünn

Häufige Fragen

Ist die chinesische Origin ein Sicherheits-Problem?

Das Repository selbst ist Apache 2.0 und vollständig selbsthostbar – keine Datenflüsse nach China bei korrekter Konfiguration (keine telemetrische Verbindung, keine externen API-Calls ausser den explizit eingerichteten LLM-Anbietern). Wer Vendor-Support aus EU/CH bevorzugt, sollte aber Haystack vorziehen.

Wie unterscheidet sich RAGFlow von LlamaIndex?

RAGFlow ist ein fertiges Produkt mit Web-UI; LlamaIndex ist ein Code-Framework. RAGFlow in 2-4 Stunden lauffähig, LlamaIndex braucht 5-15 Tage Entwicklungs-Aufwand. RAGFlow gut für Standard-Anwendungen; LlamaIndex gut für Custom-Pipelines. Beide sinnvoll kombinierbar.

Welche Hardware-Anforderung?

Minimum: 16 GB RAM, 50 GB SSD, 4 vCPU. Für mittlere Bestände (10k-100k Dokumente) und 5-20 parallele Nutzer: 32 GB RAM, 200 GB SSD, 8 vCPU. Eine Hetzner CCX23 oder CPX41 deckt das ab. GPU optional für lokale Embedder oder lokale LLMs (Ollama).

Kann ich RAGFlow mit eigenem LLM oder Ollama nutzen?

Ja. RAGFlow unterstützt Mai 2026 Ollama, vLLM und OpenAI-kompatible Endpoints. Damit lässt sich ein voll lokales Setup fahren – Hetzner-Server mit RAGFlow plus Ollama mit Llama 3.x oder Mistral. Kein Cloud-Bezug, keine Daten verlassen die eigene Infrastruktur.

Verwandte Themen

RAG-FRAMEWORKS · TOOL-VERGLEICHRAG-Frameworks im Vergleich: LangChain, LlamaIndex, Haystack, DSPy, Semantic Kernel, txtai, RAGFlow, Verba, Flowise, LangflowLANGCHAIN · TECHLangChain: das Industrie-Default-Framework für LLM-Anwendungen, mit allen Stärken und SchwächenLLAMAINDEX · TECHLlamaIndex: das saubere RAG-Framework für Code-first-TeamsHAYSTACK · TECHHaystack: das Enterprise-RAG-Framework von deepset aus BerlinDSPY · TECHDSPy: Programmieren statt Prompten – der Stanford-Ansatz für LLM-PipelinesRAG MIT EIGENEM WISSEN · SERVICERAG mit eigenem Wissen: Antworten aus Ihren Dokumenten – mit Quelle, nicht erfundenRAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortet

Quellen

  1. infiniflow/ragflow – GitHub repository and releases · 2026-05
  2. RAGFlow documentation – deployment, knowledge base, workflows · 2026-05
  3. Infiniflow blog – DeepDoc parser and Infinity vector DB · 2026-04
  4. Awesome-RAG repository – RAGFlow comparison with other open-source RAG systems · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen