Vektordatenbank & Embeddings
Was ist eine Vektordatenbank (und Embeddings)?
Definition
Eine Vektordatenbank speichert Daten als Embeddings — Zahlenlisten, die Bedeutung erfassen — und findet Ergebnisse über Ähnlichkeit statt über exakte Stichwörter. So kann KI die semantisch relevantesten Texte, Bilder oder Datensätze abrufen — die Grundlage für Retrieval-augmentierte Generierung (RAG) und semantische Suche.
Inhaltsverzeichnis
Eine Vektordatenbank ist die Gedächtnisschicht hinter den meisten ernsthaften KI-Anwendungen. Sie ermöglicht es, „die Passage zu finden, die ungefähr das bedeutet" — selbst wenn kein einziges Wort exakt übereinstimmt.
Was sind Embeddings?
Ein Embedding ist ein Text (oder ein Bild), den ein KI-Modell in eine Zahlenliste — einen Vektor — umwandelt, der seine Bedeutung repräsentiert. Texte mit ähnlicher Bedeutung liegen in diesem Zahlenraum nah beieinander. „Kündige mein Abo" und „Ich möchte meinen Tarif beenden" landen nebeneinander, obwohl sie kein Stichwort teilen.
Wie eine Vektordatenbank funktioniert
- Speichern: Jeder Abschnitt Ihrer Inhalte wird eingebettet und als Vektor gespeichert.
- Abfragen: Die eingehende Frage wird auf dieselbe Weise eingebettet.
- Suchen: Die Datenbank liefert die Vektoren, die der Anfrage am nächsten sind — die semantisch ähnlichsten Inhalte — in Millisekunden, selbst über Millionen Datensätze.
Warum hybride Suche gewinnt
Reine Vektorsuche ist stark bei Bedeutung, kann aber exakte Begriffe verfehlen (einen Produktcode, einen Namen). Reine Stichwortsuche ist das Gegenteil. Die stärksten Systeme nutzen hybride Suche — Vektorähnlichkeit kombiniert mit Stichwortabgleich (z. B. BM25) und einer Fusion der Ergebnisse — für Präzision und Trefferquote zugleich. Genau diese Retrieval-Qualität macht RAG zuverlässig.
Wo sie eingesetzt wird
Semantische Suche, „Chat mit den Dokumenten", Empfehlungen, Deduplizierung und der Abrufschritt jedes KI-Agenten. Beliebt ist u. a. pgvector (Postgres), das Vektoren direkt neben den relationalen Daten hält.
Fazit
Eine Vektordatenbank speichert Bedeutung als Zahlen und sucht nach Ähnlichkeit. Zusammen mit Embeddings und hybrider Suche ist sie die Retrieval-Engine, mit der KI präzise aus Ihrem eigenen Wissen antwortet.
Häufige Fragen
Was ist der Unterschied zwischen einer Vektordatenbank und einer normalen Datenbank?
Eine normale Datenbank findet exakte Treffer (diese ID, dieses Stichwort). Eine Vektordatenbank findet das Bedeutungsnächste und ordnet Ergebnisse nach semantischer Ähnlichkeit — ideal für natürlichsprachige Suche und KI-Retrieval.
Brauche ich eine separate Vektordatenbank?
Nicht immer. Erweiterungen wie pgvector ergänzen PostgreSQL um Vektorsuche, sodass Embeddings neben den bestehenden relationalen Daten liegen, statt ein separates System zu betreiben — oft einfacher im Betrieb.
Mehr aus dem Wiki-Lexikon
Was ist RAG (Retrieval-augmentierte Generierung)?
RAG (Retrieval-augmentierte Generierung) liefert einem LLM relevante, aktuelle Daten zur Anfragezeit, damit seine Antworten in Ihren Fakten verankert sind — nicht nur im Training. Definition, Funktionsweise und Nutzen.
Was ist ein LLM (großes Sprachmodell)?
Ein großes Sprachmodell (LLM) ist eine KI, die auf riesigen Textmengen trainiert wird, um Sprache vorherzusagen und zu erzeugen. Definition, Funktionsweise, Tokens, Kontextfenster und Grenzen.
Was ist ein KI-Agent?
Ein KI-Agent ist Software, die mit einem Sprachmodell zielgerichtet plant und handelt — Tools aufruft, entscheidet und mehrstufige Aufgaben autonom erledigt. Definition, Funktionsweise und Beispiele.
Was ist KI-Automatisierung?
KI-Automatisierung nutzt Sprachmodelle und KI-Agenten für Aufgaben, die Verständnis und Urteilsvermögen erfordern — nicht nur feste Regeln. Definition, Abgrenzung zur klassischen Automatisierung und echte Beispiele.