# Wie man das richtige LLM auswählt

Wenn Sie Blockbrain verwenden, ist das Verständnis, wie Rechenressourcen gemessen und zugewiesen werden, entscheidend, um das Maximum aus der Plattform herauszuholen. Im Mittelpunkt dieses Systems steht eine transparente, nutzungsbasierte Kennzahl: **Compute Blocks (CBs)**.&#x20;

Jede Aktion in Blockbrain – eine Nachricht senden, eine Datei hochladen oder einen Agenten ausführen – verbraucht Compute Blocks (CBs). CBs spiegeln die tatsächlichen Rechenkosten jeder Operation wider und bestehen hauptsächlich aus Tokens, die von Large Language Models (LLMs) verwendet werden.&#x20;

Die CB-Nutzung spiegelt direkt die Eingabe- und Ausgabe-Tokenpreise jedes LLM wider. Wenn beispielsweise Opus 4.6 in Bezug auf Eingabe- und Ausgabe-Tokenpreise 66,67 % teurer ist als Sonnet 4.6, dann wird auch sein CB-Verbrauch ungefähr 66,67 % höher sein.&#x20;

***

### Standardempfehlung für den unternehmensweiten Einsatz&#x20;

#### Hauptwahl: Gemini 2.5 Flash&#x20;

Blockbrain-Metriken:&#x20;

* Antwortqualität: 3,2/5&#x20;
* Geschwindigkeit: 4,8/5&#x20;
* Kosteneffizienz: 4,6/5&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Preisgestaltung**: 0,50 $ Eingabe / 3,00 $ Ausgabe pro eine Million Tokens&#x20;

Warum dieses Modell? Hervorragende Balance aus Qualität, Geschwindigkeit und Kosten mit einem riesigen Kontextfenster von 1 Mio. Tokens – ideal für vielfältige geschäftliche Anwendungsfälle.&#x20;

#### Alternative #1: GPT 5.4 Mini&#x20;

Blockbrain-Metriken:&#x20;

* &#x20;Qualität: 4,3 | Geschwindigkeit: 4,5 | Kosteneffizienz: 4,2&#x20;
* Kontext: 400k Tokens | Anbieter: OpenAI (EU)&#x20;

**Preisgestaltung**: 0,40 $ Eingabe / 1,60 $ Ausgabe pro eine Million Tokens&#x20;

Warum in Betracht ziehen? Wettbewerbsfähige Qualität zu niedrigen Kosten – ausgezeichnet für den Einsatz mit hohem Volumen.&#x20;

#### Alternative #2: Claude Haiku 4.5&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 3,6 | Geschwindigkeit: 3,6 | Kosteneffizienz: 4,0&#x20;
* Kontext: 200k Tokens | Anbieter: Vertex AI (EU)&#x20;

**Preisgestaltung**: 1 $ Eingabe / 5 $ Ausgabe pro eine Million Tokens&#x20;

Warum in Betracht ziehen? Höchste Qualität unter den Modellen der Budget-Kategorie. Hervorragend für Teams, die besseres Reasoning bei gleichzeitig hoher Kosteneffizienz benötigen.&#x20;

***

### Szenariobasierte Empfehlungen&#x20;

#### Höchste Qualität (Premium-Aufgaben)&#x20;

**Gewinner: Claude Opus 4.6 Max  (SEHR TEUER )**

* Blockbrain-Bewertung: Qualität 5,0 (die höchste im Portfolio)&#x20;

> Hinweis zur Konsistenz: Die Vergleichstabelle von Blockbrain führt Claude Opus 4.6 mit 4,5 auf. Die Bewertung 5,0 hier spiegelt die Spitzenleistung der Max-Konfiguration wider.&#x20;

* Preisgestaltung: 5 $ Eingabe / 25 $ Ausgabe pro eine Million Tokens&#x20;

> Kostenwarnung: Bei 25 $ pro eine Million Ausgabetokens ist dies 8-mal teurer als Gemini 2.5 Flash. Für 10.000 Antworten pro Monat (je 1.000 Tokens) sind allein für die Ausgabe Kosten von über 250 $ zu erwarten.&#x20;

**Wann verwenden**: Für geschäftskritische Aufgaben, Deliverables auf C-Level, komplexe strategische Analysen oder wenn die absolut beste Qualität nicht verhandelbar ist.&#x20;

**Zweitplatzierter: GPT 5.5 Pro  (AM TEUERSTEN)**&#x20;

* Blockbrain-Qualität: 4,9&#x20;
* **Preisgestaltung**: 5 $ Eingabe / 30 $ Ausgabe pro eine Million Tokens&#x20;

> Kostenwarnung: Das mit Abstand teuerste Modell im Blockbrain-Portfolio. Mit 30 $ pro eine Million Ausgabetokens kostet es 10-mal mehr als Gemini 2.5 Flash und 50-mal mehr als GPT 5.4 Mini für Ausgaben.&#x20;

**Budget-Qualitätsoption: Gemini 2.5 Pro**&#x20;

* Qualität: 3,6 | Geschwindigkeit: 4,3 | Kosteneffizienz: 3,7&#x20;
* **Preisgestaltung**: 2 $ Eingabe / 12 $ Ausgabe pro eine Million Tokens&#x20;
* Beste Premium-Option ohne extreme Kosten &#x20;

#### Maximale Geschwindigkeit&#x20;

**Gewinner: Claude Sonnet 4.6 Fast**&#x20;

* Blockbrain-Bewertung: Geschwindigkeit: 5,0 | Antwortqualität: 3,8
* **Preisgestaltung**: 3 $ Eingabe / 15 $ Ausgabe pro eine Million Tokens&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Warum es gewinnt**: Erreicht maximale Geschwindigkeit (5,0) bei hervorragender Qualität (4,5). Ideal für Echtzeitanwendungen, kundenorientierte Chatbots und zeitkritische Workflows.&#x20;

**Zweitplatzierter: Gemini 2.5 Flash**&#x20;

* Geschwindigkeit: 4,8 | Antwortqualität: 3,8&#x20;
* Preisgestaltung: 0,50 $ Eingabe / 3 $ Ausgabe (5-mal günstigere Ausgaben)&#x20;
* **Besseres Preis-Leistungs-Verhältnis** für die meisten geschwindigkeitskritischen Anwendungen&#x20;

#### Exzellenz in der Softwareentwicklung&#x20;

**Gewinner: GPT 5.3 Codex**&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 4,4 | Geschwindigkeit: 4,2 | Kosteneffizienz: 3,5&#x20;
* Kontext: 400k Tokens | Anbieter: OpenAI (EU) &#x20;
* **Preisgestaltung**: 1,75 $ Eingabe / 14 $ Ausgabe pro eine Million Tokens&#x20;

**Warum es gewinnt**: Höchste Qualität für die Codeentwicklung (4,4) bei hervorragender Geschwindigkeit. Speziell für Softwareentwicklung, Codegenerierung und technische Aufgaben entwickelt.&#x20;

**Budget-Alternative: Mistral Codestral (BESTES PREIS-LEISTUNGS-VERHÄLTNIS)**&#x20;

* Qualität: 3,4 | Geschwindigkeit: 3,9 | Kosteneffizienz: 5,0&#x20;
* **Preisgestaltung**: 0,30 $ Eingabe / 0,90 $ Ausgabe&#x20;
* Außergewöhnliches Preis-Leistungs-Verhältnis – über 80 Programmiersprachen zum niedrigsten Preis&#x20;
* Einschränkung: Kontextfenster mit 32k – nicht geeignet für Reviews großer Codebasen&#x20;

**Premium-Option: Claude Opus 4.6**&#x20;

* Antwortqualität: 4,5 | Preisgestaltung: 5 $ / 25 $&#x20;
* Am besten geeignet für: Komplexe Architekturentscheidungen, kritische Code-Reviews&#x20;

#### Kreative- und Schreibaufgaben&#x20;

**Gewinner: Claude Sonnet 4.6** &#x20;

* Blockbrain-Bewertung: Qualität 4,4 | Geschwindigkeit: 3,8 | Kosteneffizienz: 3,3&#x20;
* **Preisgestaltung**: 3 $ Eingabe / 15 $ Ausgabe pro eine Million Tokens&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Warum es gewinnt**: Claude-Modelle überzeugen bei nuanciertem Schreiben, Tonalitätskontrolle und kreativem Content. Sonnet 4.6 liefert Schreibqualität auf Flaggschiff-Niveau (4,7) zu mittleren Preisen – ein außergewöhnliches Preis-Leistungs-Verhältnis für kreative Arbeit.&#x20;

**Budget-Alternative: Claude Haiku 4.5**&#x20;

* Qualität: 3,6 | Preisgestaltung: 1 $ Eingabe / 5 $ Ausgabe&#x20;
* Hervorragend geeignet für: kreative Briefings, Social-Media-Inhalte, E-Mail-Entwürfe&#x20;

**Premium-Option: Claude Opus 4.6**&#x20;

* Qualität: 4,5–5,0 | Preisgestaltung: 5 $ / 25 $&#x20;
* Am besten geeignet für: Inhalte mit hohem Risiko, Marken-Manifestos, kritische Kommunikation&#x20;

#### Aufgaben mit komplexem Reasoning &#x20;

**Gewinner: o3 (OpenAI-Reasoning-Modell)**&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 3,5 | Geschwindigkeit: 2,3 | Kosteneffizienz: 3,7&#x20;
* Kontext: 200k Tokens | Anbieter: Azure AI (EU) &#x20;
* **Preisgestaltung**: 2 $ Eingabe / 8 $ Ausgabe pro eine Million Tokens&#x20;
* Leistung: 20 % Verbesserung gegenüber o1 bei Programmierung, Mathematik und Naturwissenschaften mit multimodalem Reasoning und autonomer Tool-Nutzung.&#x20;
* Am besten geeignet für: Komplexe Problemlösung, wissenschaftliche Analysen, fortgeschrittene Programmierung, mathematische Beweise.&#x20;

**Budget-Alternative: o4 Mini**&#x20;

* Qualität: 3,4 | Geschwindigkeit: 3,7 | Kosteneffizienz: 4,1&#x20;
* **Preisgestaltung**: 1,10 $ Eingabe / 4,40 $ Ausgabe&#x20;
* 80–90 % der Reasoning-Leistung von o3 bei 45 % geringeren Kosten&#x20;

**Premium-Option: GPT 5.5 Pro** &#x20;

* Qualität: 4,9 | Preisgestaltung: 5 $ / 30 $&#x20;
* Das fortschrittlichste verfügbare Reasoning, aber sehr teuer&#x20;

***

### Entscheidungsmatrix&#x20;

| Priorität                    | Primäre Empfehlung              | Budget-Alternative              | Premium-Option                     |
| ---------------------------- | ------------------------------- | ------------------------------- | ---------------------------------- |
| Ausgewogener Alltagsgebrauch | Gemini 2.5 Flash (0,50 $/3 $)   | GPT 5.4 Mini (0,40 $/1,60 $)    | Gemini 2.5 Pro ($2/$12)            |
| Maximale Kosteneinsparungen  | GPT 4o Mini ($0.15/$0.60)       | GPT 5.4 Mini (0,40 $/1,60 $)    | Gemini 2.5 Flash (0,50 $/3 $)      |
| Höchste Qualität             | Claude Opus 4.6 Max ($5/$25)    | Gemini 2.5 Pro ($2/$12)         | GPT 5.5 Pro ($5/$30)               |
| Schnellste Antwort           | Claude Sonnet 4.6 Fast ($3/$15) | Gemini 2.5 Flash (0,50 $/3 $)   | GPT 5.4 Low Thinking (2,50 $/15 $) |
| Kreative Arbeit              | Claude Sonnet 4.6 ($3/$15)      | Claude Haiku 4.5 (1 $/5 $)      | Claude Opus 4.6 (5 $/25 $)         |
| Code-Entwicklung             | GPT 5.3 Codex ($1.75/$14)       | Mistral Codestral ($0.30/$0.90) | Claude Opus 4.6 (5 $/25 $)         |
| Komplexes Schlussfolgern     | o3 ($2/$8)                      | o4 Mini ($1.10/$4.40)           | GPT 5.5 Pro ($5/$30)               |

***

### Strategische Empfehlungen&#x20;

#### Für die meisten Unternehmen: Multi-Modell-Strategie&#x20;

Wir empfehlen einen gestuften Ansatz:&#x20;

* **Stufe 1** (80 % der Anfragen): Schnelle, kosteneffiziente Modelle&#x20;
  * Gemini 2.5 Flash oder GPT 5.4 Mini&#x20;
  * Verwendung für: E-Mails, Zusammenfassungen, Q\&A, Basisanalysen &#x20;
* **Stufe 2** (15 % der Anfragen): Ausgewogene Premium-Modelle&#x20;
  * Claude Sonnet 4.6 oder Gemini 2.5 Pro&#x20;
  * Verwendung für: Berichte, komplexe Inhalte, strategische Analysen&#x20;
* Stufe 3 (5 % der Anfragen): Flaggschiff-Modelle&#x20;
  * Claude Opus 4.6 (nur bei Bedarf)&#x20;
  * Verwendung für: Kritische Entscheidungen, Inhalte mit hohem Risiko, Materialien für das C-Level&#x20;

Geschätzte Einsparungen: 60–75 % gegenüber der Verwendung von Flaggschiff-Modellen für alles&#x20;

***

### Abschließende Empfehlungen nach Unternehmensgröße &#x20;

#### Start-ups & kleine Teams (<50 Personen) &#x20;

**Standard**: GPT 5.4 Mini — 0,40 $ Eingabe / 1,60 $ Ausgabe&#x20;

* Hervorragende Qualität für den Preis (4,3)&#x20;
* Breite Fähigkeit über verschiedene Anwendungsfälle hinweg&#x20;
* Niedrige absolute Kosten für den Einstieg&#x20;

**Alternative**: Gemini 2.5 Flash — 0,50 $ Eingabe / 3 $ Ausgabe&#x20;

* Etwas höhere Kosten, aber Kontextfenster mit 1 Mio. Tokens&#x20;
* Besser für dokumentenlastige Workflows &#x20;

#### Mittelständische Unternehmen (50–500 Personen)&#x20;

**Standard**: Gemini 2.5 Flash — 0,50 $ Eingabe / 3 $ Ausgabe&#x20;

* Beste ausgewogene Leistung (3,2 Qualität, 4,8 Geschwindigkeit)&#x20;
* Kontextfenster mit 1 Mio. Tokens für Vielseitigkeit&#x20;
* Skaliert gut mit dem Volumen&#x20;

**Spezial-Erweiterungen:**&#x20;

* Engineering: GPT 5.3 Codex (1,75 $/14 $) oder Mistral Codestral (0,30 $/0,90 $)&#x20;
* Hochwertiger Content: Claude Sonnet 4.6 (3 $/15 $)&#x20;

#### Großunternehmen (500+ Personen)&#x20;

**Standard**: Multi-Modell-Strategie&#x20;

| Abteilung                    | Empfohlenes Modell                          | Preisgestaltung (Eingabe/Ausgabe) |
| ---------------------------- | ------------------------------------------- | --------------------------------- |
| Engineering                  | GPT 5.3 Codex + Mistral Codestral (Volumen) | $1.75/$14 + $0.30/$0.90           |
| Kreativ / Marketing          | Claude Sonnet 4.6                           | $3/$15                            |
| Analytik                     | Gemini 2.5 Pro                              | $2/$12                            |
| Allgemeine Belegschaft       | Gemini 2.5 Flash                            | $0.50/$3                          |
| Führung / Kritische Aufgaben | Claude Opus 4.6 (eingeschränkter Zugriff)   | $5/$25                            |

**Kostenmanagement:**&#x20;

* Modell-Routing basierend auf der Komplexität der Anfrage implementieren&#x20;
* Monatliche Budgets pro Team festlegen&#x20;
* Nutzungsmuster vierteljährlich überwachen&#x20;

***

### Wichtige Überlegungen&#x20;

#### Ausgabetokenkosten sind am wichtigsten&#x20;

Für typische Konversations-KI:&#x20;

* **Eingabe**: System-Prompt + Nutzeranfrage = 500 Tokens&#x20;
* **Ausgabe**: KI-Antwort = 200–500 Tokens&#x20;

Beispielkosten für 1.000 Anfragen (500 Eingabe-Tokens, 300 Ausgabe-Tokens):&#x20;

| Modell            | Eingabekosten | Ausgabekosten | Gesamt |
| ----------------- | ------------- | ------------- | ------ |
| GPT 4o Mini       | $0.075        | $0.18         | $0.26  |
| GPT 5.4 Mini      | $0.20         | $0.48         | $0.68  |
| Gemini 2.5 Flash  | $0.25         | $0.90         | $1.15  |
| Claude Haiku 4.5  | $0.50         | $1.50         | $2.00  |
| Claude Sonnet 4.6 | $1.50         | $4.50         | $6.00  |
| Claude Opus 4.6   | $2.50         | $7.50         | $10.00 |

> Ausgabelastige Anwendungsfälle (Berichte, Dokumentation, Codegenerierung) sollten Modelle mit niedrigen Ausgabekosten priorisieren. &#x20;

#### Wert des Kontextfensters&#x20;

| Modell                 | Kontextfenster   |
| ---------------------- | ---------------- |
| Gemini 2.5 Flash / Pro | 1 Mio. Tokens    |
| Claude Sonnet 4.6      | 1 Mio. Tokens    |
| Die meisten anderen    | 128k–400k Tokens |
| Mistral Codestral      | 32k Tokens       |

**Wann es wichtig ist**: Dokumentenanalyse, lange Gespräche, umfassende Recherchen, Code-Reviews über mehrere Dateien hinweg.&#x20;

> Profi-Tipp: Ein Kontextfenster mit 1 Mio. Tokens kann 750.000 Wörter oder 3.000 Seiten Text aufnehmen.&#x20;

#### Anbieteraspekte&#x20;

**Alle Blockbrain-Modelle werden in der EU gehostet und gewährleisten:**&#x20;

* **DSGVO-Konformität** – Datenverarbeitung innerhalb der EU-Grenzen&#x20;
* **Datenresidenz** – Erfüllt europäische regulatorische Anforderungen&#x20;
* **Geringere Latenz** – Für europäische Kunden&#x20;

***

### Best Practices zur Kostenoptimierung&#x20;

#### 1. Prompt Engineering&#x20;

**Ausgabetokens um 30–50 % reduzieren**&#x20;

Fügen Sie dies entweder in die ersten Anweisungen des Bots ein oder prompten Sie ihn direkt:&#x20;

* Fordern Sie knappe Antworten an: „Antworten Sie in 2–3 Sätzen“ oder verwenden Sie im Sendbox \
  Optionen → Länge: Kurz / Sehr kurz&#x20;
* Verwenden Sie strukturierte Ausgaben: „Antworten Sie in Stichpunkten“&#x20;
* Redundanz vermeiden: „Wiederholen Sie nicht die Frage“&#x20;

> **Auswirkung**: Kann die Kosten bei ausgabelastigen Modellen um mehr als 40 % senken.&#x20;

#### 2. Intelligentes Modell-Routing&#x20;

| Anfragetyp                      | Empfohlenes Modell           |
| ------------------------------- | ---------------------------- |
| Einfach (FAQ, Definitionen)     | GPT 5.4 Mini                 |
| Standard (Analyse, Entwürfe)    | Gemini 2.5 Flash             |
| Komplex (strategisch, kritisch) | Claude Sonnet 4.6 / Opus 4.6 |

> **Auswirkung**: 50–70 % Kostensenkung gegenüber der Verwendung von Premium-Modellen für alles.&#x20;

#### 3. Caching & Wiederverwendung&#x20;

* Häufige Prompts cachen (Prompt Library)&#x20;
* Kontext nach Möglichkeit wiederverwenden (z. B. über Insights)&#x20;
* RAG (Retrieval-Augmented Generation) über die Datenbank implementieren, um die Kontextgröße zu reduzieren&#x20;

**Auswirkung**: 20–30 % Reduktion der Eingabetokenkosten.&#x20;

***

### Modellvergleichstabelle (Top-Empfehlungen)&#x20;

| Modell                 | Antwortqualität | Geschwindigkeit | Kosten-Effizienz | Eingabe $ | Ausgabe $ |                               |
| ---------------------- | --------------- | --------------- | ---------------- | --------- | --------- | ----------------------------- |
| Gemini 2.5 Flash       | 3.2             | 4.8             | 4.6              | $0.50     | $3.00     | Allround-Standard             |
| GPT 5.4 Mini           | 4.3             | 4.5             | 4.2              | $0.40     | $1.60     | Budgetbewusst                 |
| GPT 4o Mini            | 2.3             | 5.0             | 5.0              | $0.15     | $0.60     | Maximale Einsparungen         |
| Claude Haiku 4.5       | 3.6             | 3.6             | 4.0              | $1.00     | $5.00     | Qualität im Budget            |
| GPT 5.3 Codex          | 4.4             | 4.2             | 3.5              | $1.75     | $14.00    | Code-Entwicklung              |
| Mistral Codestral      | 3.4             | 3.9             | 5.0              | $0.30     | $0.90     | Code (Budget)                 |
| Claude Sonnet 4.6      | 4.4             | 3.0             | 3.3              | $3.00     | $15.00    | Kreativ / Schreiben           |
| Claude Sonnet 4.6 Fast | 3.8             | 5.0             | 3.7              | $3.00     | $15.00    | Geschwindigkeit + Qualität    |
| Gemini 2.5 Pro         | 3.6             | 4.1             | 3.7              | $2.00     | $12.00    | Premium-Ausgewogen            |
| Claude Opus 4.6        | 4.5             | 2.8             | 3.0              | $5.00     | $25.00    | Top-Qualität                  |
| GPT 5.5 Pro            | 4.9             | 1.2             | 1.8              | $5.00     | $30.00    | Maximale Qualität / Reasoning |
| o3                     | 3.5             | 2.3             | 3.7              | $2.00     | $8.00     | Komplexes Schlussfolgern      |
| o4 Mini                | 3.4             | 3.7             | 4.1              | $1.10     | $4.40     | Reasoning-Mehrwert            |

### Fazit&#x20;

**Das Blockbrain-Modellportfolio bietet hervorragende Optionen für jeden Anwendungsfall und jedes Budget.**&#x20;

**Für die meisten Unternehmen empfehlen wir:**&#x20;

1. Beginnen Sie mit Gemini 2.5 Flash als Standardmodell (z. B. in Ihrem Company GPT)&#x20;
2. Ergänzen Sie GPT 5.4 Mini für budgetbewusste Teams&#x20;
3. Führen Sie Spezialmodelle ein (GPT 5.3 Codex, Claude Sonnet 4.6)&#x20;
4. Reservieren Sie Premium-Modelle (Opus, GPT 5.5 Pro) nur für kritische Aufgaben&#x20;

**Dieser Ansatz liefert typischerweise:**&#x20;

* 60–75 % Kosteneinsparungen gegenüber einem reinen Premium-Einsatz&#x20;
* Über 90 % Nutzerzufriedenheit&#x20;
* Flexibilität, um im Laufe der Zeit zu skalieren und zu optimieren


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.en.theblockbrain.ai/de/fur-nutzer/alles-uber-llms/wie-man-das-richtige-llm-auswahlt.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.