# Leitfaden für Embedding-Modelle

#### **Was ist ein Embedding-Modell**

Ein Embedding-Modell wandelt Text, Dokumente oder Bilder in numerische Vektoren um, die ihre Bedeutung repräsentieren. Diese Vektoren werden in einer Vektordatenbank gespeichert, sodass Systeme Informationen anhand von Ähnlichkeit statt exakter Schlüsselwörter suchen können.

Verschiedene Embedding-Modelle sind für unterschiedliche Zwecke konzipiert. Einige sind für das Abrufen langer Dokumente optimiert, andere für mehrsprachiges Verständnis, Codesuche oder semantische Ähnlichkeit. **Die Wahl des richtigen Embedding-Modells trägt dazu bei, dass das System für eine bestimmte Aufgabe die relevantesten Informationen abruft**.

| Embedding-Modell         | Beste Einsatzbereiche                                                         | Beschreibung                                                                                                                                                                                           |
| ------------------------ | ----------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| Text Embedding 3 Large   | Unternehmenssuche, Abruf großer Dokumente, Indexierung von Wissensdatenbanken | Bewältigt präzise semantische Suche und Abruf über komplexe Datensätze hinweg.                                                                                                                         |
| Text Embedding Ada 002   | Legacy-Systeme, leichte semantische Suche, einfache Vektordatenbanken         | Geeignet für grundlegende semantische Suche und leichte Anwendungen zu geringeren Kosten.                                                                                                              |
| Gemini Embedding 001     | Mehrsprachige Datensätze, RAG-Pipelines                                       | Am besten geeignet für mehrsprachigen und kontextreichen Dokumentenabruf. Es funktioniert gut über mehrere Sprachen hinweg und behält in längeren Dokumenten ein starkes semantisches Verständnis bei. |
| Multilingual Embedding 2 | Mehrsprachige Suche, sprachübergreifender Dokumentenabruf.                    | Für mehrsprachigen Textabruf, Ähnlichkeit und Suche über viele Sprachen hinweg.                                                                                                                        |
| English Embedding 4      | Datensätze nur in Englisch, Dokumentenabruf.                                  | <p>Optimiert für Englisch </p><p>Dokumente.</p>                                                                                                                                                        |

#### Erweiterte Einstellungen

* **Sprache**: Wählen Sie die in der Datenbank verwendete(n) Sprache(n) aus, um die Abrufgenauigkeit zu verbessern.
* **Chunk-Größe**: Bestimmt, wie viel Text aus einem Dokument in jedem Segment verarbeitet wird. Kleinere Chunks konzentrieren sich auf bestimmte Details und verbessern die Präzision, während größere Chunks mehr Kontext enthalten, aber möglicherweise weniger relevante Informationen einbringen.\
  \&#xNAN;*Wichtig: Die Chunk-Größe muss immer größer als die Chunk-Überlappung sein.*
* **Chunk-Überlappung**: Steuert, wie viel Text zwischen benachbarten Chunks geteilt wird. Mehr Überlappung hilft, den Kontext zwischen Chunks zu erhalten, während weniger Überlappung die Verarbeitungseffizienz verbessert.
* **Intelligente Tabellenverarbeitung:** Erkennt Tabellen in PDFs und wandelt sie in strukturierten Text um, der für LLMs lesbar ist. Dies verursacht zusätzliche Rechenkosten.
* **Intelligente Bildverarbeitung:** Erkennt Bilder in PDFs und wandelt alle lesbaren Inhalte in strukturierte Informationen für LLMs um. Dies verursacht zusätzliche Rechenkosten.
* **Intelligente OCR-Verarbeitung:** Fügt eine OCR-basierte Upload-Option für gescannte oder komplexe PDFs hinzu. Dies verursacht zusätzliche Rechenkosten.
* **Bildextraktion:** Extrahiert Bilder aus PDFs oder Bilddateien (z. B. PNG, JPEG), sodass auf diese Bilder in den Antworten verwiesen werden kann.
* **Kontextualisiertes Chunking \[Experimentell]:** Fügt jedem PDF-Chunk eine von einem LLM erzeugte Zusammenfassungsüberschrift hinzu. Dies hilft Abrufsystemen, den Kontext jedes Abschnitts zu verstehen und verbessert so die Relevanz von Suche und Antworten.
* **Großen PDF-Chunk aktivieren:** Verkettet mehrere PDF-Seiten zu 1 Chunk (für eine größere Chunk-Größe)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.en.theblockbrain.ai/de/fur-entwickler/leitfaden-fur-embedding-modelle.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.