LLAMAINDEX · TECH

LlamaIndex: das saubere RAG-Framework für Code-first-Teams

LlamaIndex ist Mai 2026 in v0.10+ das sauberste RAG-Framework. MIT-Lizenz, Python und TypeScript, klarere API als LangChain. Mit LlamaCloud Mai 2026 auch als Managed-Tier verfügbar.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist LlamaIndex?

LlamaIndex ist ein Open-Source-Framework, das speziell für Retrieval-Augmented-Generation (RAG) entwickelt wurde. Gegründet als GPT-Index im November 2022 von Jerry Liu, im Februar 2023 umbenannt in LlamaIndex. Mai 2026 in Version 0.10+, MIT-lizenziert, mit Python (llama-index) und TypeScript (LlamaIndex.TS) als separaten Code-Basen.

Die kommerzielle Hinterseite ist LlamaIndex Inc. mit dem Managed-Service LlamaCloud (Mai 2026 in GA), der das eigene Hosten von Vektor-DB und Indexing-Pipeline abnimmt. Daneben gibt es LlamaHub mit Hunderten Loader-Konnektoren (Confluence, SharePoint, Notion, Google Drive, Slack, Salesforce) und LlamaParse für komplexes Dokument-Parsing (PDFs mit Tabellen, Bildern, Layouts).

Der Unterschied zu LangChain liegt in Fokus und Code-Qualität. Wo LangChain versucht, ein Universal-LLM-Framework zu sein, konzentriert sich LlamaIndex auf RAG: Daten in einen Vektor-Index laden, abfragen, in eine LLM-Antwort einbetten. Die Abstraktionen sind klarer (Documents, Nodes, Indexes, Retrievers, Synthesizers), das API ist konsistenter, die Lern-Kurve flacher. Code-Qualität wird Mai 2026 deutlich seltener kritisiert als bei LangChain.

Das Modell-Universum ist gross. LlamaIndex spricht alle gängigen LLMs (OpenAI, Anthropic, Mistral, Cohere, Azure, AWS Bedrock, Vertex, Ollama, vLLM), alle gängigen Vektor-DBs (Qdrant, Weaviate, Pinecone, Chroma, Milvus, Postgres-pgvector, Redis), alle gängigen Embedding-Modelle (OpenAI ada/text-embedding-3, Cohere, BGE-M3, Voyage, lokale Sentence-Transformer). Mai 2026 ist die Integrations-Liste auf Augenhöhe mit LangChain.

Wichtige Sub-Module: llama-index-core (Basis), llama-index-readers-* (rund 100 Daten-Quellen), llama-index-vector-stores-* (rund 30 Vektor-DBs), llama-index-llms-* (rund 50 LLM-Provider). Modulare Installation statt monolithisch – pip install llama-index-core plus benötigte Sub-Pakete.

Warum es wichtig ist

Für CH-Treuhand und KMU mit RAG-Bedarf ist LlamaIndex Mai 2026 unsere Standard-Empfehlung. Drei Gründe.

Erstens: Code-Qualität. Eine typische RAG-Pipeline in LlamaIndex umfasst 30-50 Zeilen Python, ist gut lesbar und entspricht dem mental Modell der RAG-Pipeline (laden -> chunken -> embedden -> indizieren -> abfragen -> antworten). Die gleiche Pipeline in LangChain ist oft 100+ Zeilen mit verschachtelten Klassen. Code-Reviews und Onboarding neuer Entwickler werden bei LlamaIndex schneller.

Zweitens: Stabilität. LlamaIndex v0.10+ Mai 2026 hat seit zweieinhalb Jahren keine schwerwiegenden Breaking Changes mehr gehabt. Versions-Upgrades sind in den meisten Fällen ohne Code-Änderung möglich. Das ist für produktive Schweizer Setups (mit dem Stabilitäts-Anspruch der Branche) ein hohes Argument.

Drittens: RAG-Spezialisierung. LlamaIndex bringt Werkzeuge, die LangChain entweder fehlen oder klobiger umgesetzt sind. Hierarchical Retrieval (Auto-Merging), Re-Ranking-Integration (Cohere Rerank, BGE-Reranker, ColBERT), Hybrid-Search (Dense + Sparse), Multi-Modal-RAG (Bilder, Tabellen), Query-Engine-Komposition (zwei Indexe parallel abfragen, Ergebnisse mergen). Für komplexe RAG-Setups Mai 2026 das technisch reifere Werkzeug.

Der Kompromiss ist Reichweite. Für komplexe Agentic-Workflows mit vielen Tool-Calls ist LangGraph stärker als LlamaIndex Workflows. Wer ein Agent-System mit RAG, Tool-Use, Memory und Verzweigungen baut, wird oft LangGraph plus LlamaIndex-Retriever kombinieren – das geht und ist Mai 2026 ein gängiges Muster.

Für CH/EU-Compliance ist LlamaIndex selbst neutral – es ist ein lokales Python-Paket, kein Cloud-Service. LlamaCloud (kommerzielle Managed-Variante) läuft in US-AWS – für Mandanten-Daten heikel. Die Self-Host-Variante mit LlamaIndex-Core plus Qdrant in EU-Region ist die saubere Wahl. Tracing via Langfuse oder OpenTelemetry, nicht via LlamaCloud Trace.

Wie es funktioniert

Das Kern-Konzept von LlamaIndex ist die Pipeline aus drei Stufen: Ingestion (Daten laden und in den Index aufnehmen), Retrieval (relevante Chunks für eine Frage finden), Synthesis (LLM-Antwort aus Frage + Chunks bauen).

Beispiel Minimal-RAG für ein Treuhand-Wissensbasis:

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings from llama_index.llms.openai import OpenAI from llama_index.embeddings.openai import OpenAIEmbedding from llama_index.vector_stores.qdrant import QdrantVectorStore import qdrant_client

Settings.llm = OpenAI(model="gpt-4o-mini", temperature=0) Settings.embed_model = OpenAIEmbedding(model="text-embedding-3-small")

client = qdrant_client.QdrantClient(url="http://localhost:6333") vector_store = QdrantVectorStore(client=client, collection_name="treuhand_kb")

# Ingestion docs = SimpleDirectoryReader("./mandanten_docs").load_data() index = VectorStoreIndex.from_documents(docs, vector_store=vector_store)

# Retrieval + Synthesis query_engine = index.as_query_engine(similarity_top_k=5) response = query_engine.query("Welche AHV-Beiträge gelten 2026?") print(response)

Das ist die ganze Pipeline. Die Library kuemmert sich um Chunking, Embedding-Berechnung, Vektor-Speicherung, Ähnlichkeits-Suche und Prompt-Bauen. Pro Schritt sind Settings parametrisierbar (chunk_size, chunk_overlap, similarity_top_k, prompt_template).

Für fortgeschrittene Setups bietet LlamaIndex modulare Komponenten. Retriever (VectorIndexRetriever, BM25Retriever, RouterRetriever, FusionRetriever) für verschiedene Such-Strategien. Node Postprocessors (Cohere Rerank, LLM Rerank, SimilarityPostprocessor) für Filterung und Re-Ranking. Response Synthesizers (Refine, CompactAndRefine, TreeSummarize) für verschiedene Antwort-Strategien je Kontext-Länge.

LlamaParse ist die kommerzielle PDF-Parsing-Komponente. Komplexe PDFs mit Tabellen, Bildern und Layouts werden in saubere Markdown-Struktur umgewandelt – wichtig für Steuer-PDFs, Bilanzen, juristische Verträge. Preis Mai 2026 USD 3/1000 Seiten für die Pro-Variante.

LlamaCloud bietet Managed-Indexing – Daten-Quellen verbinden, automatische Re-Indizierung, eingebaute Vektor-DB. Mai 2026 ist es in US-AWS gehostet, für CH/EU-Anwendungen mit Datenresidenz-Anspruch nicht erste Wahl.

Workflows (LlamaIndex eigenes Agent-Konzept) sind ein dekorator-basiertes State-Machine-Modell. Event-getrieben, mit Workflow-Steps als Funktionen. Mai 2026 jung und elegant, aber LangGraph hat im Agentic-Bereich mehr Reife.

LlamaIndex-Setup in 5 Schritten

01Use-Case schärfen: welche Daten (Anzahl, Format, Aktualisierungs-Frequenz), welche Fragen, welche LLM-Qualitäts-Stufe, welche Latenz-Erwartung.
02Stack wählen: LlamaIndex-Core + Embedding (OpenAI text-embedding-3-small als Standard, oder lokal BGE-M3) + Vektor-DB (Qdrant in CH/EU als Default) + LLM (gpt-4o-mini oder Mistral-EU). LlamaParse falls komplexe PDFs.
03Ingestion-Pipeline schreiben: SimpleDirectoryReader oder spezifischer Loader (SharePoint, Confluence, Notion), Chunking-Strategie wählen (RecursiveSplitter oder SentenceSplitter), Embedding-Berechnung, In-Index-Speichern.
04Query-Engine konfigurieren: similarity_top_k (Standard 5-10), Re-Ranking (Cohere Rerank oder BGE-Reranker), Response-Synthesizer-Modus (Refine für lange Kontext, CompactAndRefine für Effizienz).
05Evaluation: 30-50 echte Frage-Antwort-Paare als Test-Set, Recall@k und Antwort-Qualität manuell prüfen, Tracing via Langfuse oder OpenTelemetry. Erst dann produktiv schalten.

Wann LlamaIndex einsetzen

LlamaIndex ist die richtige Wahl, wenn (a) der Anwendungsfall im Kern RAG ist, (b) Code-Qualität und Wartbarkeit wichtig sind und (c) das Team Python beherrscht.

Konkrete Fälle: eine Treuhand baut eine Mandanten-Wissensbasis aus 5.000-50.000 Dokumenten mit Chat-Interface für interne Abfragen – LlamaIndex plus Qdrant in EU-Region ist Mai 2026 die Standard-Lösung. Ein Anwaltsbüro will OR/StGB/Bundesgerichts-Urteile als RAG-Bestand pflegen und LLM-gestützt abfragen – LlamaIndex plus Qdrant plus LlamaParse für juristische PDFs. Ein KMU integriert SharePoint-Inhalte mit Notion und einem internen Wiki in einen RAG-Bestand – LlamaHub-Loader plus LlamaIndex-Pipeline.

Für Pilot-Projekte und Lern-Setups ist LlamaIndex Mai 2026 die freundlichste Option – geringe Einstiegshürden, klare Dokumentation, sauberer Code als Vorbild.

Für Multi-Modal-RAG (PDFs mit Tabellen und Diagrammen, Excel-Daten, Bilder) bietet LlamaIndex mit LlamaParse plus MultiModal-Index die robusteren Werkzeuge im Vergleich zu LangChain Mai 2026.

Wann NICHT

Für komplexe Agentic-Workflows mit vielen Tool-Calls und Multi-Step-Logik ist LangGraph stärker. LlamaIndex Workflows sind Mai 2026 noch jung und weniger erprobt.

Für Enterprise-Compliance mit hohem Audit-Anspruch ist Haystack die robustere Wahl – deepset bietet kommerziellen Support mit klaren SLAs.

Für No-Code-Setups ohne Python-Team ist LlamaIndex nicht erste Wahl. Hier sind Flowise oder RAGFlow (mit Web-UI) der zugänglichere Weg.

Für extrem grosse Wissensbestände (> 5 Mio. Dokumente) ist LlamaIndex grundsätzlich geeignet, aber die Pipeline-Tuning-Komplexität steigt erheblich – hier lohnt Haystack-Erfahrung oder spezialisierte Vektor-DB-Beratung.

Für reine API-Wrapper-Anwendungen (ein Prompt, ein LLM, keine Daten-Quelle) ist LlamaIndex Overkill. Direkter OpenAI-Library-Call ist kürzer.

LlamaCloud (Managed-Variante) ist Mai 2026 in US-AWS. Für CH/EU-Datenresidenz-Anforderungen ist Self-Host mit LlamaIndex-Core plus eigener Vektor-DB (Qdrant in Hetzner Falkenstein) die saubere Wahl, nicht der Cloud-Service.

Für Schweizerdeutsch-Voice-Pipelines ist LlamaIndex nicht zentral – die Audio-Pipeline (STT + LLM + TTS) profitiert kaum von LlamaIndex, ausser für einen RAG-Schritt zwischendrin.

Vor- und Nachteile

STÄRKEN

Saubererer Code und klarere Abstraktionen als LangChain
Stabile API seit v0.10 – minimaler Migrations-Schmerz
RAG-spezialisiert mit hierarchischem Retrieval, Re-Ranking, Hybrid-Search
LlamaParse für komplexe PDFs, LlamaHub mit Hunderten Loadern

SCHWÄCHEN

Workflows (Agent-Konzept) noch weniger erprobt als LangGraph
LlamaCloud in US-AWS – nicht erste Wahl für CH/EU-Datenresidenz
Etwas kleinere Community als LangChain – weniger Tutorials
Bei sehr grossen Wissensbeständen (> 5M Docs) Tuning-Aufwand erheblich

Häufige Fragen

LlamaIndex oder LangChain für RAG?

Mai 2026 für reine RAG-Pipelines klar LlamaIndex – saubererer Code, stabilere API, RAG-spezialisiert. Für komplexe Agents mit vielen Tool-Calls eher LangChain plus LangGraph. Hybrid (LlamaIndex-Retriever in LangGraph-Agent) ist ein gängiges Muster.

Lohnt LlamaParse für PDFs?

Bei komplexen PDFs mit Tabellen, Bildern und Layouts (Bilanzen, Steuer-PDFs, juristische Verträge): ja. USD 3/1000 Seiten Pro-Tarif ist günstig im Vergleich zu Eigenbau. Für einfache Text-PDFs ist der eingebaute PyPDF-Loader ausreichend.

LlamaCloud oder Self-Host?

Für Pilot-Projekte ohne CH/EU-Datenresidenz-Anspruch: LlamaCloud schneller fertig (kein Infrastruktur-Aufwand). Für Schweizer Anwendungen mit Mandanten-Daten: Self-Host mit LlamaIndex-Core plus Qdrant in Hetzner Falkenstein. LlamaCloud Mai 2026 ist US-AWS und damit nicht CH/EU-konform.

Wie schnell ist die Lernkurve?

Ein Junior-Entwickler mit Python-Erfahrung baut Mai 2026 eine erste RAG-Pipeline in 1-2 Tagen. Fortgeschrittene Konzepte (Re-Ranking, Hybrid-Search, Multi-Index-Routing) brauchen 1-2 Wochen. Im Vergleich zu LangChain rund 30-50 Prozent weniger Einarbeitungs-Aufwand.

Quellen

run-llama/llama_index – GitHub repository and releases · 2026-05
LlamaIndex documentation – core concepts and patterns · 2026-05
LlamaCloud and LlamaParse – managed pipeline and PDF parsing · 2026-04
LlamaIndex blog – release notes and architecture posts · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen