Zurück zu den Artikeln
RAG im Unternehmen: Architektur und Best Practices 2026
KI RAG LLM Architektur

RAG im Unternehmen: Architektur und Best Practices 2026

Hichem AMMAR-BOUDJELAL
Hichem AMMAR-BOUDJELALCEO & Mitgründer von DPLIANCE
· Aktualisiert am 12 Min. Lesezeit

Quick Answer: Was ist RAG im Unternehmen?

RAG (Retrieval-Augmented Generation, wörtlich „durch Suche angereicherte Generierung”) ist die im deutschen Unternehmensumfeld 2026 am häufigsten eingesetzte KI-Architektur, um ein großes Sprachmodell auf Basis Ihrer eigenen Dokumentation antworten zu lassen. Das Prinzip ist einfach, vergleichbar mit einem Berater, der vor der Antwort die relevanten Akten öffnet:

  1. Der Nutzer stellt eine Frage in natürlicher Sprache.
  2. Das System sucht relevante Dokumente in einer speziell vorbereiteten Wissensbasis (der „Vektordatenbank”: jedes Dokument wird dort als numerische Signatur gespeichert, damit ähnliche Inhalte schnell gefunden werden).
  3. Die relevanten Dokumente werden in den Prompt an das LLM eingefügt.
  4. Das LLM generiert eine Antwort, verankert in diesen Dokumenten, mit Quellenangabe.

Referenz-Stack 2026 für den deutschen Markt:

  • LLM: Aleph Alpha Pharia 1 (Heidelberg, voll souverän, BSI-kompatibel und besonders relevant für Verwaltung und KRITIS), Mistral Large oder Mistral Small 3 (EU-souverän), Llama 3.1/3.3 70B selbst gehostet, GPT-4o oder Claude (wenn man die DPF-Abhängigkeit akzeptiert).
  • Embeddings: Multilingual E5 (sehr stark auf Deutsch), BGE-M3, deutsche Embedding-Modelle von Aleph Alpha, Mistral Embed. Für reine deutsche Korpora: deutsche Spezialmodelle wie intfloat/multilingual-e5-large-instruct oder aari1995/German_Semantic_V3.
  • Vektordatenbank: Qdrant (selbst hostbar, Referenz 2026), Weaviate (Berlin gegründet, große deutsche Nutzerbasis), Milvus, pgvector wenn PostgreSQL bereits im Stack, Chroma für frühe Prototypen.
  • Orchestrierung: Haystack (von Deepset in Berlin entwickelt — die natürliche Wahl im DACH-Markt), LangChain, LlamaIndex.

Im DACH-Markt verbreitete Anwendungsfälle: Wissensmanagement in der Automobilindustrie (Audi, BMW, Daimler, Bosch — technische Dokumentation, Servicehandbücher), Maschinenbau und Industrie 4.0 (Wartungshandbücher, SAP-Dokumentation), Compliance und Recht in regulierten Branchen (BaFin, KRITIS), interne Wissensdatenbanken in Versicherungen, F&E in Pharma und Chemie.

Warum RAG statt Fine-Tuning: RAG ist einfacher, wartungsärmer und transparenter. Fine-Tuning rechtfertigt sich nur in sehr spezifischen Fällen (zu erlernender Stil, hochspezialisierte Terminologie).

Kosten: 50 bis 200 € pro Monat im Betrieb für ein KMU, 5 bis 25 k€ initiale Investition.


Warum sich RAG 2026 durchgesetzt hat

Vor 2024 bedeutete die Integration internen Unternehmenswissens in ein LLM Fine-Tuning — langwierig, teuer, fragil. RAG hat die Gleichung aus drei Gründen umgekehrt.

Wandel 1 — Reife der Long-Context-LLMs. Mistral, GPT-4o, Claude und Aleph Alpha Pharia bewältigen 2026 routinemäßig Kontexte von 100.000 bis 1 Million Token. Man kann ihnen Dutzende Seiten Dokumente als Input übergeben — exakt das, was RAG braucht. Vor 2024 zwang die Begrenzung auf 8-32k Token zu harten Kompromissen bei der Kontextmenge; diese Reibung ist verschwunden.

Wandel 2 — Reife der Open-Source-Vektordatenbanken. Qdrant, Weaviate (Berlin gegründet, 2026 mit großer deutscher Community), Milvus, Chroma und pgvector erlauben es 2026, eine produktive Vektor-DB innerhalb weniger Stunden bereitzustellen, kostenlos oder zu sehr geringen Kosten. Vor 2023 musste man entweder Pinecone (US-SaaS) nutzen oder den Stack selbst bauen. Heute: Qdrant Self-Hosted bei STACKIT, IONOS oder Open Telekom Cloud, in wenigen Befehlen.

Wandel 3 — Einfachheit der Integration. Haystack — entwickelt vom Berliner Unternehmen Deepset und in Deutschland besonders weit verbreitet — sowie LangChain und LlamaIndex haben die Integrationsmuster stabilisiert. Ein deutsches KMU kann in 1-2 Wochen mit einem schlanken Engineering-Team einen RAG-Prototyp bauen. Die Frameworks übernehmen Ingestion, Chunking, Embedding, Retrieval, Generierung mit Zitierung.

Konkret: Jede deutsche Organisation 2026 mit einer internen Dokumentenbasis (>500 Dokumente) profitiert davon, RAG zu erkunden. Es ist zugänglich, vorhersehbar geworden, und der ROI bemisst sich in Monaten.


Detaillierte Architektur eines produktiven RAG

Eine reife RAG-Pipeline 2026 umfasst sechs Komponenten. Erst Schema, dann Detail.

Pipeline-Schema

[Dokumentenquellen]
   SharePoint, DMS, Confluence, OneDrive, SAP-Exports, Verträge


[1. Ingestion] ─── PDF/DOCX/HTML-Parsing, OCR bei Scans


[2. Chunking] ─── 200-1000 Token Passagen


[3. Embeddings] ─── numerische Signatur pro Chunk


[4. Vektor-DB] ── Qdrant / Weaviate / pgvector Speicher

            ├──── (zur Laufzeit, Nutzeranfrage)
            ▼                              │
[5. Retrieval] ◄─────────────────── Anfrage-Embedding
       │       Top-K Chunks                │
       ▼                                   │
[6. Generierung] ── LLM mit Kontext ◄──────┘


[Antwort + Quellenangaben]

1. Dokument-Ingestion

Quellen: SharePoint (im DACH-Markt dominant), DMS-Systeme (DocuWare, ELO, d.velop), Confluence-Wikis, OneDrive-Ordner, SAP-Exports, Verträge, FAQs, Intranet. Parsing: PDF (mit OCR bei Scans — Azure Document Intelligence oder Tesseract), DOCX, HTML, Markdown, Audiotranskripte (über Whisper).

Best Practice: Metadaten (Autor, Datum, Quelle, Sensitivitätsklassifikation, Aufbewahrungsklasse) entlang der gesamten Pipeline erhalten, um nachgelagert filtern zu können. Für regulierte Branchen (BaFin, KRITIS, Pharma) bewahren Sie zusätzlich die Versionsnummer und das Inkrafttretensdatum auf — sie müssen wortgenau zitiert werden.

2. Chunking

Dokumente werden in Passagen von 200-1000 Token zerlegt. Strategien:

  • Festes Chunking: 500 Token pro Chunk, einfach
  • Semantisches Chunking: nach Absatz oder logischem Abschnitt, relevanter
  • Hierarchisches Chunking: großer Chunk (Übersicht) plus kleinere Chunks (Detail), gut für strukturierte Verträge oder ISO-Normen

Gutes Chunking unterscheidet einen mittelmäßigen RAG von einem leistungsstarken. Hier Zeit investieren. Für deutsche technische Dokumentation (Maschinenbau, Automotive) ist absatzbasiertes Chunking mit Beibehaltung der Kapitelnummer als Metadatum bewährt.

3. Embeddings

Jeder Chunk wird in einen dichten Vektor (768-3.072 Dimensionen) umgewandelt. Modelle 2026 für deutsche Inhalte:

ModellHerkunftQualität auf DeutschSouveränität
Multilingual E5Open SourceSehr gutOK wenn selbst betrieben
BGE-M3China Open SourceSehr gutOK wenn selbst betrieben
Aleph Alpha EmbeddingsDeutschland (Heidelberg)ExzellentVollständig
Mistral EmbedFrankreichGutEU-souverän
OpenAI text-embedding-3USASehr gutDPF-Abhängigkeit
German Semantic V3Open Source DEExzellent auf DeutschOK wenn selbst betrieben

Für souveränitätssensitive Kontexte (Behörden, KRITIS, Verteidigung) sind Aleph Alpha oder selbst betriebene Open-Source-Modelle die richtige Wahl.

4. Vektorspeicherung

Speicherung der Embeddings + Metadaten + Original-Chunk. Auswahl 2026:

Vektor-DBTypIdealer AnwendungsfallSouveränität
QdrantOpen Source selbst hostbarReferenz 2026, KMU bis KonzernJa
WeaviateOpen Source (Berlin)Größerer Maßstab, deutsche CommunityJa wenn selbst gehostet
ChromaOpen SourcePoC, schneller PrototypJa
pgvectorPostgreSQL-ErweiterungBestehender Postgres-StackJa
MilvusOpen SourceSehr großer MaßstabJa wenn selbst gehostet
PineconeUS-SaaSBei sensiblen Daten meidenNein

Für regulierte Fälle (BaFin-aufsichtspflichtige Institute, KRITIS, Gesundheit nach §75c SGB V) ist Qdrant Self-Hosted bei STACKIT, IONOS, Open Telekom Cloud oder OVHcloud Frankfurt die souveräne Referenzwahl 2026.

5. Retrieval

Zur Laufzeit wird die Nutzeranfrage:

  1. In ein Embedding umgewandelt (mit demselben Modell wie bei der Ingestion)
  2. Mit gespeicherten Embeddings verglichen (Kosinus-Ähnlichkeit)
  3. Top-K Chunks abgerufen (typischerweise K=5-10)

Häufige Verbesserungen:

  • Hybrid Search: kombiniert Vektorsuche mit Keyword-Suche (BM25). Verbessert Präzision bei technischen Begriffen — besonders relevant in deutscher Industrie-Dokumentation, wo exakte DIN/ISO-Normbezeichnungen zählen.
  • Reranking: ein dediziertes Cross-Encoder-Modell (Cohere Rerank 3, BGE-Reranker) sortiert Top-K-Ergebnisse neu, behält nur die wirklich relevanten.
  • Metadaten-Filter: Suche auf eine Teilmenge einschränken (nach Datum, Quelle, Klassifikation, Nutzerprofil, Werk/Standort).

6. Generierung mit Quellenangabe

Das LLM erhält:

  • Die Nutzeranfrage
  • Die relevanten Chunks als Kontext
  • Einen System-Prompt, der explizite Zitate fordert

Typische Ausgabe: „Gemäß Wartungshandbuch MH-2024-03 (Abschnitt 4.2) ist das Drehmoment auf 25 Nm einzustellen… [Quelle: Wartungshandbuch MH-2024-03, Stand 2024-09].”

Ohne Zitierung haben Sie kein RAG, sondern ein LLM, das auf internen Dokumenten halluziniert. Zitierung ist nicht verhandelbar für Nutzervertrauen und Compliance (Art. 5 Abs. 1 lit. d DSGVO — Richtigkeit).


RAG vs. Fine-Tuning — die Entscheidung 2026

KriteriumRAGFine-Tuning
Time-to-Market1-4 Wochen4-12 Wochen
Initiale Kosten5-25 k€30-100 k€
Wartung (Wissensänderung)Reindexieren (Stunden)Re-Fine-Tuning (Tage)
TransparenzZitate möglichBlack Box
Faktische GenauigkeitHoch (quellenbasiert)Mäßig (Halluzinationsrisiko)
Spezifischer Stil/TonBegrenztAusgezeichnet
InferenzkostenMäßig (langer Kontext = mehr Token)Niedriger
Erforderliche SkillsEntwickler mit LLM-APIsData Science + GPU

Entscheidungsregel 2026:

  • Sich entwickelndes Wissen, mehrere Quellen, Zitatpflicht → RAG
  • Spezifischer zu erlernender Stil, hochspezialisierte Terminologie, latenzkritisch → Fine-Tuning
  • Mehrheit der Business-Cases → RAG zuerst

Mit RAG starten, nur dann auf Fine-Tuning wechseln oder ergänzen, wenn eine rigorose Evaluation es rechtfertigt.


6 Unternehmens-Anwendungsfälle für RAG im DACH-Markt

1. Automotive und Maschinenbau — technische Dokumentation und Servicehandbücher. Der größte Anwendungsfall in Deutschland. Audi, BMW, Daimler, Bosch, ZF, Continental, sowie der Maschinenbau-Mittelstand betreiben RAGs über interne Konstruktionsunterlagen, Servicehandbücher, Fehlerbäume und Werkstattanweisungen. Werkstattmechaniker und Engineering-Teams stellen Fragen in natürlicher Sprache, statt 8.000-seitige PDFs zu durchsuchen. Strenge Zugriffskontrolle pro Werk, Modell und Lieferantenvertraulichkeitsstufe.

Typische Volumina: 50.000 bis 1.000.000 Dokumente, hunderte bis tausende Anfragen täglich.

2. Industrie 4.0 und SAP-Wissen. SAP ist allgegenwärtig im deutschen Mittelstand. RAGs über interne SAP-Customizing-Dokumentation, SOPs, ABAP-Code-Kommentare beschleunigen Onboarding neuer SAP-Berater dramatisch.

3. Compliance und Recht in regulierten Branchen (BaFin, KRITIS). Indexierung der BaFin-Rundschreiben, MaRisk, internen Richtlinien, KYC-Verfahren. Compliance-Officer fragen das System in natürlicher Sprache statt 5.000 Seiten Regulatorik zu durchsuchen.

Typische Volumina: 5.000 bis 100.000 Dokumente, hunderte Anfragen pro Monat.

4. First-Level-Kundensupport. Indexierung der Produktdokumentation, gelöster Tickets, Troubleshooting-Playbooks. Ergebnis: konsistente Antworten, Self-Service-Lösungsquote steigt, Volumen der Level-1-Tickets sinkt um 30-50 % auf gut zugeschnittenen Bereichen.

5. Pharma- und Chemie-F&E. Bayer, BASF, Boehringer Ingelheim und der DACH-Pharma-Mittelstand setzen RAGs über interne Forschungsberichte, Patente und klinische Studienunterlagen ein. Strikte Zugriffskontrolle, kein Export auf außereuropäische Infrastruktur für patientenbezogene Daten.

6. Onboarding und interne Wissensbasis. Indexierung der Schulungsunterlagen, Verfahren, HR-Richtlinien. Neue Mitarbeitende stellen Fragen in natürlicher Sprache statt 12 Wikis zu durchsuchen.


DSGVO-Konformität von RAG (BfDI- und DSK-konform)

RAG ist eine automatisierte Verarbeitung, die zu rahmen ist.

Schlüsselpflichten:

  • Eintragung im Verzeichnis von Verarbeitungstätigkeiten (Art. 30 DSGVO): „KI-Unterstützung für interne Dokumentensuche”. Zweck, verarbeitete Daten, Auftragsverarbeiter, Aufbewahrungsfristen.
  • DSFA bei personenbezogenen Daten in der Wissensbasis: gemäß den Orientierungshilfen von BfDI und DSK (Datenschutzkonferenz) sowie der Hambacher Erklärung zu KI.
  • Pseudonymisierung bei der Ingestion, wenn möglich: Namen und Kennungen nicht indexieren, wenn nicht erforderlich.
  • Souveränes Hosting in Deutschland oder EU für sensible Daten: Aleph Alpha + Qdrant bei STACKIT, IONOS oder Open Telekom Cloud. Für KRITIS und Verwaltung BSI-C5-zertifizierte Anbieter bevorzugen.
  • Auftragsverarbeitungsvertrag (Art. 28 DSGVO): Jede Stack-Komponente, die personenbezogene Daten verarbeitet — LLM-Anbieter, Vektor-DB-Anbieter falls Managed, Embedding-Anbieter — muss unter einem AVV stehen, mit angemessenen Klauseln, einschließlich Standardvertragsklauseln (SCC) bei Drittlandtransfer.
  • EU AI Act: Einsatz im HR-Bereich, im Bewerber-Screening oder im Kreditscoring kann das RAG als Hochrisiko-System einstufen. Die Überlagerung DSGVO + AI Act + nationale Aufsicht (BfDI für Bundesbehörden, LDIs der Länder, BaFin für Finanz, BSI für KRITIS) muss dokumentiert sein.
  • Zugriffskontrolle: Ein Nutzer darf nur die Chunks sehen, auf die er in der Quelldokumentation legitim Zugriff hat. Metadaten-Filter pro Nutzerprofil, ausgerichtet auf die Berechtigungen der Quellsysteme. Ohne diese Filterung wird RAG zum Berechtigungsleck-Kanal — ein Vertriebsmitarbeiter erreicht über das RAG HR-Akten, die er nicht sehen darf.

Was wir nicht versprechen

Drei wiederkehrende Antipattern, die wir bei DPLIANCE meiden, wenn wir ein maßgeschneidertes RAG entwerfen.

„Wir indexieren alles, Zugriff regeln wir später.” Falsch. Zugriffskontrolle muss bei der Ingestion entworfen werden, nicht nachträglich. 100.000 Dokumente mit einheitlichem Zugriff zu indexieren bedeutet, einen monumentalen Berechtigungsleck-Kanal zu schaffen — das RAG antwortet auf Basis von Dokumenten, auf die der Nutzer in der Quelle keinen Zugriff hatte. Die nachträgliche Anwendung der Rechte ist technisch komplex und rechtlich fragil unter DSGVO.

„Das RAG löst alles, wir müssen unsere Quellen nicht mehr ordnen.” Falsch. Ein RAG über schlecht organisierte, widersprüchliche Quellen wird mit … schlecht organisierten, widersprüchlichen Informationen antworten. RAG verstärkt die Qualität der Quellen — es korrigiert sie nicht. Ein RAG-Projekt als Auslöser für eine Bereinigung der Dokumentation zu nutzen, ist oft der nützlichste Nebeneffekt.

„Wir starten direkt mit einem autonomen Agenten, der RAG plus Aktionen macht.” Meist ein Fehler für ein erstes KI-Projekt. RAG allein hat seine Tücken (Chunking, Zugriffskontrolle, Zitierung). Einen autonomen Agenten hinzuzufügen, der externe Aktionen ausführt, multipliziert die Risiken.

DPLIANCE ist Software-Editor. Wenn wir eine maßgeschneiderte KI-Lösung entwerfen, die ein RAG enthält, kümmern wir uns um den vollständigen Stack: Modellauswahl (Aleph Alpha, Mistral, on-premise je nach Sensitivitätsstufe), Vektor-DB-Auswahl (souveränes Qdrant standardmäßig), Quellintegration, Zugriffskontrolle ausgerichtet auf Ihre bestehenden Berechtigungen, systematische Zitierung, Qualitäts-Monitoring.


FAQ

Was ist RAG (Retrieval-Augmented Generation)?

RAG ist eine Architektur, die ein LLM (Aleph Alpha Pharia, Mistral, GPT-4o, Claude) mit einer internen Wissensbasis koppelt. Wenn ein Nutzer eine Frage stellt, durchsucht das System die Wissensbasis nach relevanten Dokumenten, übergibt sie dem LLM als Kontext und generiert eine Antwort, die in diesen Dokumenten verankert ist — mit Quellenangabe.

Wann sollte man RAG statt Fine-Tuning wählen?

RAG ist 2026 in der Regel dem Fine-Tuning vorzuziehen für: Wissen, das sich regelmäßig ändert, mehrere zu zitierende Quellen, Transparenzanforderungen, Teams ohne dedizierte Data-Science-Kompetenz. Fine-Tuning für: dauerhafter Stil, hochspezialisierte Terminologie, latenzkritisch.

Welche Vektordatenbank für RAG wählen?

Für KMU und PoC: Qdrant, Chroma, pgvector. Für große Produktion: Qdrant im Cluster, Weaviate (Berlin), Milvus. Für maximale Souveränität: Self-Hosted bei STACKIT, IONOS, Open Telekom Cloud. Zu vermeiden: US-SaaS (Pinecone) bei sensiblen Daten.

Was kostet ein produktives RAG?

KMU mit 1.000 Dokumenten und 100 Nutzern: 50 bis 200 € pro Monat im Betrieb. Initiale Investition: 5 bis 25 k€. Großunternehmen mit 100.000+ Dokumenten: 500 bis 3.000 € pro Monat.

Ist RAG DSGVO-konform?

RAG ist eine automatisierte Verarbeitung, die im Verzeichnis nach Art. 30 DSGVO einzutragen ist. DSFA bei personenbezogenen Daten in der Wissensbasis. Hosting bei deutschen oder EU-souveränen Anbietern. Zugriffskontrolle unverzichtbar.

Was ist der Unterschied zwischen RAG und einem KI-Agenten?

Ein RAG beantwortet eine Frage gestützt auf interne Dokumente — eine Komponente. Ein KI-Agent entscheidet über eine Folge von Aktionen — ein System. RAG ist eine Komponente, die häufig in Agenten eingebettet ist.

Halluziniert RAG immer?

Ja, aber deutlich weniger als ein eigenständiges LLM. Reduktion typischerweise von 90 % auf unter 5 %. Quellenangaben sind Pflicht.

Wie lange dauert es, RAG produktiv zu setzen?

PoC: 1-2 Wochen. Pilot: 4-8 weitere Wochen. Vollständige Industrialisierung: 3-6 Monate. Engpass: Quellintegration und Zugriffsgouvernanz, nicht die Technologie.


Quellen: offizielle Dokumentation Aleph Alpha, Mistral AI, Qdrant, Weaviate, Milvus, pgvector, Chroma; wissenschaftliche Literatur zu RAG (Lewis et al. 2020 und nachfolgende Arbeiten); Haystack-, LangChain- und LlamaIndex-Dokumentation; Verordnung (EU) 2016/679 (DSGVO); Bundesdatenschutzgesetz (BDSG); BfDI- und DSK-Orientierungshilfen zu KI und Datenschutz; Verordnung (EU) 2024/1689 (AI Act); BSI-Veröffentlichungen zu KI-Sicherheit.

Um ein RAG-Projekt in Ihrer Organisation zu rahmen — Architekturwahl, Vektor-DB, ERP/CRM-Integration, Zugriffskontrolle, Compliance — siehe unseren Leitfaden zu DSGVO-konformer KI, unsere KI-Charta für Unternehmen, unseren Anwendungsfälle-Leitfaden, oder kontaktieren Sie uns über unsere maßgeschneiderten KI-Lösungen.