Vektordatenbank & Embeddings

Was ist eine Vektordatenbank (und Embeddings)?

Alex GrygorievAktualisiert 1 Min. Lesezeit

Definition

Eine Vektordatenbank speichert Daten als Embeddings — Zahlenlisten, die Bedeutung erfassen — und findet Ergebnisse über Ähnlichkeit statt über exakte Stichwörter. So kann KI die semantisch relevantesten Texte, Bilder oder Datensätze abrufen — die Grundlage für Retrieval-augmentierte Generierung (RAG) und semantische Suche.

Inhaltsverzeichnis

Eine Vektordatenbank ist die Gedächtnisschicht hinter den meisten ernsthaften KI-Anwendungen. Sie ermöglicht es, „die Passage zu finden, die ungefähr das bedeutet" — selbst wenn kein einziges Wort exakt übereinstimmt.

Was sind Embeddings?

Ein Embedding ist ein Text (oder ein Bild), den ein KI-Modell in eine Zahlenliste — einen Vektor — umwandelt, der seine Bedeutung repräsentiert. Texte mit ähnlicher Bedeutung liegen in diesem Zahlenraum nah beieinander. „Kündige mein Abo" und „Ich möchte meinen Tarif beenden" landen nebeneinander, obwohl sie kein Stichwort teilen.

Wie eine Vektordatenbank funktioniert

  • Speichern: Jeder Abschnitt Ihrer Inhalte wird eingebettet und als Vektor gespeichert.
  • Abfragen: Die eingehende Frage wird auf dieselbe Weise eingebettet.
  • Suchen: Die Datenbank liefert die Vektoren, die der Anfrage am nächsten sind — die semantisch ähnlichsten Inhalte — in Millisekunden, selbst über Millionen Datensätze.

Warum hybride Suche gewinnt

Reine Vektorsuche ist stark bei Bedeutung, kann aber exakte Begriffe verfehlen (einen Produktcode, einen Namen). Reine Stichwortsuche ist das Gegenteil. Die stärksten Systeme nutzen hybride Suche — Vektorähnlichkeit kombiniert mit Stichwortabgleich (z. B. BM25) und einer Fusion der Ergebnisse — für Präzision und Trefferquote zugleich. Genau diese Retrieval-Qualität macht RAG zuverlässig.

Wo sie eingesetzt wird

Semantische Suche, „Chat mit den Dokumenten", Empfehlungen, Deduplizierung und der Abrufschritt jedes KI-Agenten. Beliebt ist u. a. pgvector (Postgres), das Vektoren direkt neben den relationalen Daten hält.

Fazit

Eine Vektordatenbank speichert Bedeutung als Zahlen und sucht nach Ähnlichkeit. Zusammen mit Embeddings und hybrider Suche ist sie die Retrieval-Engine, mit der KI präzise aus Ihrem eigenen Wissen antwortet.

Häufige Fragen

Was ist der Unterschied zwischen einer Vektordatenbank und einer normalen Datenbank?

Eine normale Datenbank findet exakte Treffer (diese ID, dieses Stichwort). Eine Vektordatenbank findet das Bedeutungsnächste und ordnet Ergebnisse nach semantischer Ähnlichkeit — ideal für natürlichsprachige Suche und KI-Retrieval.

Brauche ich eine separate Vektordatenbank?

Nicht immer. Erweiterungen wie pgvector ergänzen PostgreSQL um Vektorsuche, sodass Embeddings neben den bestehenden relationalen Daten liegen, statt ein separates System zu betreiben — oft einfacher im Betrieb.