# Erfahren Sie mehr über LLM-Benchmarks

### Warum sind LLM-Benchmarks wichtig?

{% stepper %}
{% step %}

#### Das liefert echte Daten, keinen Hype.

Benchmarks geben dir eine objektive Möglichkeit, Modelle über Schlussfolgerung, Programmierung, Mathematik, Sprachverständnis und Sicherheit hinweg zu bewerten. So kannst du Entscheidungen auf messbare Leistung statt nur auf Behauptungen stützen.
{% endstep %}

{% step %}

#### Hilft dir, das richtige Modell für deinen Anwendungsfall zu finden.

Jedes Modell hat Stärken. Manche liegen bei Programmierung vorne, während andere bei Schlussfolgerung oder mehrsprachigen Aufgaben besser abschneiden. Wenn du diese Unterschiede verstehst, kannst du das Modell wählen, das am besten zu dem passt, was du erreichen möchtest.
{% endstep %}

{% step %}

#### Die Nutzung mehrerer Benchmarks gibt dir ein klareres Bild.

Modelle können je nach getesteter Aufgabe sehr unterschiedlich abschneiden. Ein Blick auf mehrere Benchmarks gibt dir ein umfassenderes und genaueres Bild der Fähigkeiten eines Modells.
{% endstep %}

{% step %}

#### Sie helfen dir bei der Entscheidungsfindung, liefern aber keine endgültigen Antworten.

Eine starke Punktzahl spiegelt die Leistung unter bestimmten, kontrollierten Bedingungen wider. Sie garantiert nicht dieselben Ergebnisse in deiner Umgebung. Benchmarks sollten genutzt werden, um die Auswahl einzugrenzen, und dann vor einer endgültigen Entscheidung durch Tests in der Praxis validiert werden.
{% endstep %}
{% endstepper %}

### Liste der LLM-Benchmarks

* Vereinfachte Benchmark-Liste: Eine kurze Referenz zu den Benchmarks und Leaderboards, die heute am häufigsten zum Vergleich von Frontier-Modellen verwendet werden.
* Vollständige Benchmark-Liste: Eine breitere Referenz über wichtige Fähigkeitsbereiche hinweg, wenn du eine tiefere oder spezifischere Bewertung benötigst.

{% tabs %}
{% tab title="Vereinfachte Benchmark-Liste" %}

<table><thead><tr><th width="174.22222900390625">Benchmark</th><th width="278.77777099609375">Was es bewertet</th><th>Status</th></tr></thead><tbody><tr><td><strong>MMLU-Pro</strong></td><td>Wissen auf Graduate-Niveau über mehrere Disziplinen hinweg, mit 10 Antwortmöglichkeiten statt 4, um Raten zu verringern und die Modellleistung besser zu trennen</td><td>Aktiv - bleibt ein starker Differenzierungsfaktor, wobei die Werte typischerweise niedriger sind als bei standardmäßigem MMLU</td></tr><tr><td><strong>GPQA Diamond</strong></td><td>Wissenschaftliches Denken auf Expertenniveau in Biologie, Physik und Chemie, entwickelt, um Frontier-Reasoning über bloßes Faktenabrufen hinaus zu testen</td><td>Aktiver Differenzierungsfaktor - einer der stärksten Benchmarks für fortgeschrittenes wissenschaftliches Denken</td></tr><tr><td><strong>AA Quality Index</strong></td><td>Ein zusammengesetzter Intelligenzscore von Artificial Analysis, der Ergebnisse über mehrere Benchmarks hinweg zu einer einzigen Vergleichsmetrik kombiniert</td><td>Aktiv - wird aktualisiert, wenn neue Modelle und Benchmarks hinzugefügt werden</td></tr><tr><td><strong>Chatbot Arena (LMSYS)</strong></td><td>Menschliche Präferenz in offenen Gesprächen, basierend auf anonymen Paarvergleichen zwischen Modellen</td><td>Weit referenziert - spiegelt echte Nutzerpräferenzen wider und nicht nur kontrollierte Testleistung</td></tr><tr><td><strong>LiveCodeBench</strong></td><td>Codegenerierung bei neu veröffentlichten Competitive-Programming-Aufgaben, entwickelt, um eine Kontamination der Trainingsdaten zu verringern</td><td>Aktiv - wird regelmäßig aktualisiert und ist damit einer der aktuellsten verfügbaren Coding-Benchmarks</td></tr><tr><td><strong>AIME 2025</strong></td><td>Fortgeschrittenes mathematisches Denken durch Aufgaben im Olympiade-Stil, die mehrstufige Problemlösung erfordern</td><td>Aktiv und sehr anspruchsvoll - nur wenige Frontier-Modelle schneiden hier stark ab</td></tr><tr><td><strong>SWE-bench Verified</strong></td><td>Praxisnahes Software Engineering durch verifizierte GitHub-Issue-Lösungen über vollständige Codebasen hinweg</td><td>Goldstandard für Programmierung - bewertet praktische Engineering-Fähigkeiten über isolierte Codegenerierung hinaus</td></tr></tbody></table>
{% endtab %}

{% tab title="Vollständige Benchmark-Liste " %}

<table><thead><tr><th>Benchmark</th><th width="454.2222900390625">Was es bewertet</th><th>Status</th></tr></thead><tbody><tr><td><strong>MMLU</strong></td><td>Breites Wissen über 57 akademische Fächer hinweg, einschließlich MINT, Geisteswissenschaften und professioneller Disziplinen</td><td>Ausgereift</td></tr><tr><td><strong>MMLU-Pro</strong></td><td>Eine schwierigere Version von MMLU mit 10 Antwortmöglichkeiten, die Raten verringern und die Modellleistung besser trennen</td><td>Aktiv</td></tr><tr><td><strong>GPQA Diamond</strong></td><td>Wissenschaftliches Denken auf Expertenniveau in Biologie, Physik und Chemie</td><td>Aktiv</td></tr><tr><td><strong>ARC-AGI 2</strong></td><td>Abstrakte Mustererkennung und Schlussfolgerung aus ersten Prinzipien statt auswendig gelerntem Wissen</td><td>Aktiv</td></tr><tr><td><strong>Humanity's Last Exam</strong></td><td>Extrem schwierige, von Experten verfasste Fragen aus einem breiten Spektrum akademischer Bereiche</td><td>Aktiv</td></tr><tr><td><strong>GSM8K</strong></td><td>Einfache Mathe-Textaufgaben mit mehreren Schritten auf Grundschulniveau</td><td>Ausgereift</td></tr><tr><td><strong>MATH</strong></td><td>Mathematik auf Wettbewerbsniveau, die strukturierte Schlussfolgerungen und freie Antworten erfordert</td><td>Aktiv</td></tr><tr><td><strong>AIME 2025</strong></td><td>Mathematische Problemlösung auf Olympiade-Niveau mit tiefgehender mehrstufiger Schlussfolgerung</td><td>Aktiv</td></tr><tr><td><strong>HumanEval</strong></td><td>Generierung von Python-Funktionen aus natürlichen Sprachaufforderungen, bewertet anhand der Korrektheit von Unit-Tests</td><td>Ausgereift</td></tr><tr><td><strong>HumanEval+</strong></td><td>Eine strengere Erweiterung von HumanEval mit umfangreicherer Testabdeckung und mehr Randfällen</td><td>Aktiv</td></tr><tr><td><strong>LiveCodeBench</strong></td><td>Codegenerierung bei frischen Competitive-Programming-Aufgaben, regelmäßig aktualisiert, um das Kontaminationsrisiko zu verringern</td><td>Aktiv</td></tr><tr><td><strong>SWE-bench Verified</strong></td><td>Realistisches Software Engineering durch verifizierte Behebung von Issues über vollständige Codebasen hinweg</td><td>Goldstandard</td></tr><tr><td><strong>SWE-bench Pro</strong></td><td>Bewertung von Software Engineering auf Repository-Ebene mit breiterer Sprachunterstützung</td><td>Im Entstehen</td></tr><tr><td><strong>IFEval</strong></td><td>Wie genau ein Modell spezifische, überprüfbare Anweisungen mit eingeschränkten Ausgabeforderungen befolgt</td><td>Aktiv</td></tr><tr><td><strong>BFCL v4</strong></td><td>Tool-Nutzung und Function Calling in seriellen, parallelen, mehrstufigen und agentischen Workflows</td><td>Weit verbreitet</td></tr><tr><td><strong>RULER</strong></td><td>Langkontext-Retrieval, Tracking und Synthese über lange Dokumente hinweg</td><td>Aktiv</td></tr><tr><td><strong>MMMU Pro</strong></td><td>Multimodales Denken über akademische Fächer hinweg unter Verwendung von Text- und visuellen Eingaben</td><td>Aktiv</td></tr><tr><td><strong>TruthfulQA</strong></td><td>Faktische Zuverlässigkeit und Widerstand gegen häufige Missverständnisse sowie Prompts, die zu Halluzinationen neigen</td><td>Kontaminiert</td></tr><tr><td><strong>HELM</strong></td><td>Mehrdimensionale Bewertung über Genauigkeit, Kalibrierung, Robustheit, Fairness, Bias und Effizienz hinweg</td><td>Framework</td></tr><tr><td><strong>Chatbot Arena (LMSYS)</strong></td><td>Menschliche Präferenz in offenen Gesprächen durch anonyme Modellvergleiche Seite an Seite</td><td>Weit verbreitet</td></tr></tbody></table>

* Aktiv = heute noch nützlich, um Modellleistung zu unterscheiden
* Ausgereift = Top-Modelle liegen zu nah beieinander für eine starke Unterscheidung
* Im Entstehen = neuerer Benchmark mit wachsender Verbreitung
* Goldstandard = stärkster Referenzpunkt in seiner Kategorie
* Weit verbreitet = in der Praxis häufig referenziert
* Kontaminiert = Ergebnisse können aufgrund von Überschneidungen mit Trainingsdaten weniger zuverlässig sein
* Framework = besser für eine breite Bewertung als für ein direktes Ranking
  {% endtab %}
  {% endtabs %}

### Snapshot der Frontier-Model-Benchmarks (Mai 2026)

* Ein richtungsweisender Vergleich führender Modelle über öffentlich berichtete Benchmarks hinweg. Leere Felder bedeuten, dass für die hier verwendete Quellenmenge kein direkt vergleichbarer öffentlicher Wert bestätigt werden konnte.

| Modell                        | GPQA Diamond | SWE-bench Verified | ARC-AGI-2 | HLE                                          |
| ----------------------------- | ------------ | ------------------ | --------- | -------------------------------------------- |
| **GPT-5.4**                   | 92%          | -                  | 73.3%     | <p>39,8 % ohne Tools<br>52,1 % mit Tools</p> |
| **GPT-5.3-Codex**             | 83.7%        | -                  | -         | -                                            |
| **GPT-5.2**                   | 71.2%        | 72.8%              | 52.9%     | <p>34,5 % ohne Tools<br>45,5 % mit Tools</p> |
| **Claude Opus 4.6**           | 84.0%        | 75.6%              | 68.8%     | <p>40,0 % ohne Tools<br>53,0 % mit Tools</p> |
| **Claude Sonnet 4.6**         | 79.9%        | -                  | 58.3%     | <p>33,2 % ohne Tools<br>49,0 % mit Tools</p> |
| **Claude Opus 4.5**           | 86.6%        | 76.8%              | -         | -                                            |
| **Claude Sonnet 4.5**         | 83.4%        | 71.4%              | -         | -                                            |
| **Claude Haiku 4.5**          | 64.6%        | 66.6%              | -         | -                                            |
| **Gemini 3.1 Pro (Vorschau)** | 94.1%        | 80.6%              | 77.1%     | <p>44,4 % ohne Tools<br>51,4 % mit Tools</p> |
| **Gemini 3 Flash**            | 89.8%        | 75.8%              | -         | 33.7%                                        |

### Benchmarks nach Anwendungsfall

* Verschiedene Aufgaben erfordern unterschiedliche Bewertungssignale. Diese Tabelle hebt die Benchmarks hervor, die für gängige LLM-Anwendungsfälle am relevantesten sind, damit du dich auf die Werte konzentrieren kannst, die am besten zur jeweiligen Aufgabe passen.

<table><thead><tr><th width="249">Anwendungsfall</th><th>Primäre Benchmarks</th><th>Zusätzliche Referenzen</th></tr></thead><tbody><tr><td>Allgemeinwissen und Q&#x26;A</td><td>MMLU-Pro, Chatbot Arena (LMSYS)</td><td>MMLU</td></tr><tr><td>Codegenerierung</td><td>SWE-bench Verified, LiveCodeBench, SWE-bench Pro</td><td>HumanEval+, BFCL v4</td></tr><tr><td>Mathematisches Denken</td><td>AIME 2025, MATH</td><td>GSM8K</td></tr><tr><td>Wissenschaftliches Denken</td><td>GPQA Diamond</td><td>Humanity's Last Exam</td></tr><tr><td>Kreatives Schreiben</td><td>Chatbot Arena Creative Writing</td><td>-</td></tr><tr><td>Anweisungsbefolgung</td><td>IFEval</td><td>Chatbot Arena (LMSYS)</td></tr><tr><td>Tool-Nutzung und Function Calling</td><td>BFCL v4</td><td>-</td></tr><tr><td>Langkontext-Verständnis</td><td>RULER, Needle-in-a-Haystack</td><td>LongGenBench</td></tr><tr><td>Multimodal und Vision</td><td>MMMU Pro, Arena Vision</td><td>MMMU</td></tr><tr><td>Mehrsprachige Aufgaben</td><td>MMMLU</td><td>MLNeedle</td></tr><tr><td>Agentische Workflows</td><td>SWE-bench, BFCL v4</td><td>WebArena, OSWorld</td></tr><tr><td>Sicherheit und faktische Zuverlässigkeit</td><td>HalluLens, SimpleQA</td><td>-</td></tr></tbody></table>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.en.theblockbrain.ai/de/fur-nutzer/alles-uber-llms/erfahren-sie-mehr-uber-llm-benchmarks.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
