RAG (Retrieval-augmentierte Generierung)
Was ist RAG (Retrieval-augmentierte Generierung)?
Definition
RAG (Retrieval-augmentierte Generierung) ist eine Technik, die ein LLM verbessert, indem zur Anfragezeit relevante Dokumente aus einer Wissensbasis abgerufen und dem Prompt hinzugefügt werden. Das Modell antwortet dann anhand dieser echten, aktuellen Daten — das reduziert Halluzinationen und erlaubt den Zugriff auf private oder tagesaktuelle Informationen.
Inhaltsverzeichnis
RAG (Retrieval-augmentierte Generierung) ist eines der wichtigsten Muster der angewandten KI. Es verbindet ein LLM mit Ihren eigenen Daten, sodass es Fragen zu Dokumenten, Produkten oder Prozessen beantworten kann, auf die das Modell nie trainiert wurde.
Warum es RAG gibt
Das Wissen eines LLM ist zum Trainingszeitpunkt eingefroren, und es kennt Ihre privaten Dokumente nicht. Fragt man es nach der internen Richtlinie Ihres Unternehmens, verweigert es entweder die Antwort oder erfindet eine. RAG löst das, indem es dem Modell das passende Quellmaterial im Moment der Frage bereitstellt.
Wie RAG funktioniert
- Indexieren: Ihre Dokumente werden in Abschnitte zerlegt, in Embeddings umgewandelt und in einer Vektordatenbank gespeichert.
- Abrufen: Kommt eine Frage herein, findet das System die relevantesten Abschnitte (über semantische Ähnlichkeit, oft kombiniert mit Stichwortsuche).
- Anreichern & generieren: Diese Abschnitte werden in den Prompt eingefügt, und das LLM antwortet damit — idealerweise mit Quellenangaben.
RAG vs. Fine-Tuning
Fine-Tuning verändert die Gewichte des Modells, um ihm einen Stil oder eine Fähigkeit beizubringen. RAG lässt das Modell unverändert und passt die Informationen an, die es sieht. Um Antworten aktuell und faktentreu zu halten, ist RAG meist günstiger, schneller zu aktualisieren und besser prüfbar — man sieht genau, welche Quelle eine Antwort erzeugt hat.
Wo RAG eingesetzt wird
Support-Assistenten, die aus Ihrem Help-Center antworten, interne „Chat mit den Dokumenten"-Tools und jeder KI-Agent, der fundiertes, vertrauenswürdiges Wissen braucht. Gutes Retrieval — hybride Suche aus Vektorähnlichkeit und Stichwortabgleich — unterscheidet ein zuverlässiges RAG-System von einem wackeligen.
Fazit
RAG verankert ein LLM in echten Daten: die richtigen Fakten abrufen, dem Prompt hinzufügen, eine fundierte Antwort erzeugen. Es ist der Standardweg, KI auf Ihren eigenen Inhalten präzise, aktuell und vertrauenswürdig zu machen.
Häufige Fragen
Verhindert RAG, dass KI halluziniert?
Es reduziert Halluzinationen stark, indem Antworten in abgerufenen Quellen verankert werden, beseitigt sie aber nicht vollständig. Die Qualität hängt von gutem Retrieval und der Anweisung ab, nur aus dem bereitgestellten Kontext zu antworten.
Ist RAG besser als Fine-Tuning?
Um Wissen aktuell und faktentreu zu halten, ist RAG meist die bessere erste Wahl — günstiger und prüfbar. Fine-Tuning eignet sich besser, um einen festen Stil oder ein Format beizubringen. Viele Systeme kombinieren beides.
Mehr aus dem Wiki-Lexikon
Was ist eine Vektordatenbank (und Embeddings)?
Eine Vektordatenbank speichert Text als Embeddings — numerische Bedeutungsvektoren — damit KI nach Ähnlichkeit suchen kann, nicht nur nach Stichwörtern. Definition, Funktionsweise von Embeddings und warum Vektorsuche RAG antreibt.
Was ist ein LLM (großes Sprachmodell)?
Ein großes Sprachmodell (LLM) ist eine KI, die auf riesigen Textmengen trainiert wird, um Sprache vorherzusagen und zu erzeugen. Definition, Funktionsweise, Tokens, Kontextfenster und Grenzen.
Was ist ein KI-Agent?
Ein KI-Agent ist Software, die mit einem Sprachmodell zielgerichtet plant und handelt — Tools aufruft, entscheidet und mehrstufige Aufgaben autonom erledigt. Definition, Funktionsweise und Beispiele.
Was ist Prompt Engineering?
Prompt Engineering ist die Kunst, Anweisungen zu formulieren, die einem LLM zuverlässige, präzise Ergebnisse entlocken. Definition, Kerntechniken (Kontext, Beispiele, Struktur) und Bedeutung in Produktion.