RAG (Retrieval-augmentierte Generierung)

Was ist RAG (Retrieval-augmentierte Generierung)?

Alex GrygorievAktualisiert 5. Juni 20261 Min. Lesezeit

Definition

RAG (Retrieval-augmentierte Generierung) ist eine Technik, die ein LLM verbessert, indem zur Anfragezeit relevante Dokumente aus einer Wissensbasis abgerufen und dem Prompt hinzugefügt werden. Das Modell antwortet dann anhand dieser echten, aktuellen Daten — das reduziert Halluzinationen und erlaubt den Zugriff auf private oder tagesaktuelle Informationen.

Inhaltsverzeichnis

RAG (Retrieval-augmentierte Generierung) ist eines der wichtigsten Muster der angewandten KI. Es verbindet ein LLM mit Ihren eigenen Daten, sodass es Fragen zu Dokumenten, Produkten oder Prozessen beantworten kann, auf die das Modell nie trainiert wurde.

Warum es RAG gibt

Das Wissen eines LLM ist zum Trainingszeitpunkt eingefroren, und es kennt Ihre privaten Dokumente nicht. Fragt man es nach der internen Richtlinie Ihres Unternehmens, verweigert es entweder die Antwort oder erfindet eine. RAG löst das, indem es dem Modell das passende Quellmaterial im Moment der Frage bereitstellt.

Wie RAG funktioniert

Indexieren: Ihre Dokumente werden in Abschnitte zerlegt, in Embeddings umgewandelt und in einer Vektordatenbank gespeichert.
Abrufen: Kommt eine Frage herein, findet das System die relevantesten Abschnitte (über semantische Ähnlichkeit, oft kombiniert mit Stichwortsuche).
Anreichern & generieren: Diese Abschnitte werden in den Prompt eingefügt, und das LLM antwortet damit — idealerweise mit Quellenangaben.

RAG vs. Fine-Tuning

Fine-Tuning verändert die Gewichte des Modells, um ihm einen Stil oder eine Fähigkeit beizubringen. RAG lässt das Modell unverändert und passt die Informationen an, die es sieht. Um Antworten aktuell und faktentreu zu halten, ist RAG meist günstiger, schneller zu aktualisieren und besser prüfbar — man sieht genau, welche Quelle eine Antwort erzeugt hat.

Wo RAG eingesetzt wird

Support-Assistenten, die aus Ihrem Help-Center antworten, interne „Chat mit den Dokumenten"-Tools und jeder KI-Agent, der fundiertes, vertrauenswürdiges Wissen braucht. Gutes Retrieval — hybride Suche aus Vektorähnlichkeit und Stichwortabgleich — unterscheidet ein zuverlässiges RAG-System von einem wackeligen.

Fazit

RAG verankert ein LLM in echten Daten: die richtigen Fakten abrufen, dem Prompt hinzufügen, eine fundierte Antwort erzeugen. Es ist der Standardweg, KI auf Ihren eigenen Inhalten präzise, aktuell und vertrauenswürdig zu machen.

Häufige Fragen

Verhindert RAG, dass KI halluziniert?

Es reduziert Halluzinationen stark, indem Antworten in abgerufenen Quellen verankert werden, beseitigt sie aber nicht vollständig. Die Qualität hängt von gutem Retrieval und der Anweisung ab, nur aus dem bereitgestellten Kontext zu antworten.

Ist RAG besser als Fine-Tuning?

Um Wissen aktuell und faktentreu zu halten, ist RAG meist die bessere erste Wahl — günstiger und prüfbar. Fine-Tuning eignet sich besser, um einen festen Stil oder ein Format beizubringen. Viele Systeme kombinieren beides.

KI in Ihrem Unternehmen einsetzen

Was ist RAG (Retrieval-augmentierte Generierung)?

Warum es RAG gibt

Wie RAG funktioniert

RAG vs. Fine-Tuning

Wo RAG eingesetzt wird

Fazit

Häufige Fragen

Mehr aus dem Wiki-Lexikon

Was ist eine Vektordatenbank (und Embeddings)?

Was ist ein LLM (großes Sprachmodell)?

Was ist ein KI-Agent?

Was ist Prompt Engineering?