# Erfahren Sie mehr über LLM-Benchmarks ### Warum sind LLM-Benchmarks wichtig? {% stepper %} {% step %} #### Das liefert echte Daten, keinen Hype. Benchmarks geben dir eine objektive Möglichkeit, Modelle über Schlussfolgerung, Programmierung, Mathematik, Sprachverständnis und Sicherheit hinweg zu bewerten. So kannst du Entscheidungen auf messbare Leistung statt nur auf Behauptungen stützen. {% endstep %} {% step %} #### Hilft dir, das richtige Modell für deinen Anwendungsfall zu finden. Jedes Modell hat Stärken. Manche liegen bei Programmierung vorne, während andere bei Schlussfolgerung oder mehrsprachigen Aufgaben besser abschneiden. Wenn du diese Unterschiede verstehst, kannst du das Modell wählen, das am besten zu dem passt, was du erreichen möchtest. {% endstep %} {% step %} #### Die Nutzung mehrerer Benchmarks gibt dir ein klareres Bild. Modelle können je nach getesteter Aufgabe sehr unterschiedlich abschneiden. Ein Blick auf mehrere Benchmarks gibt dir ein umfassenderes und genaueres Bild der Fähigkeiten eines Modells. {% endstep %} {% step %} #### Sie helfen dir bei der Entscheidungsfindung, liefern aber keine endgültigen Antworten. Eine starke Punktzahl spiegelt die Leistung unter bestimmten, kontrollierten Bedingungen wider. Sie garantiert nicht dieselben Ergebnisse in deiner Umgebung. Benchmarks sollten genutzt werden, um die Auswahl einzugrenzen, und dann vor einer endgültigen Entscheidung durch Tests in der Praxis validiert werden. {% endstep %} {% endstepper %} ### Liste der LLM-Benchmarks * Vereinfachte Benchmark-Liste: Eine kurze Referenz zu den Benchmarks und Leaderboards, die heute am häufigsten zum Vergleich von Frontier-Modellen verwendet werden. * Vollständige Benchmark-Liste: Eine breitere Referenz über wichtige Fähigkeitsbereiche hinweg, wenn du eine tiefere oder spezifischere Bewertung benötigst. {% tabs %} {% tab title="Vereinfachte Benchmark-Liste" %}

Benchmark	Was es bewertet	Status
MMLU-Pro	Wissen auf Graduate-Niveau über mehrere Disziplinen hinweg, mit 10 Antwortmöglichkeiten statt 4, um Raten zu verringern und die Modellleistung besser zu trennen	Aktiv - bleibt ein starker Differenzierungsfaktor, wobei die Werte typischerweise niedriger sind als bei standardmäßigem MMLU
GPQA Diamond	Wissenschaftliches Denken auf Expertenniveau in Biologie, Physik und Chemie, entwickelt, um Frontier-Reasoning über bloßes Faktenabrufen hinaus zu testen	Aktiver Differenzierungsfaktor - einer der stärksten Benchmarks für fortgeschrittenes wissenschaftliches Denken
AA Quality Index	Ein zusammengesetzter Intelligenzscore von Artificial Analysis, der Ergebnisse über mehrere Benchmarks hinweg zu einer einzigen Vergleichsmetrik kombiniert	Aktiv - wird aktualisiert, wenn neue Modelle und Benchmarks hinzugefügt werden
Chatbot Arena (LMSYS)	Menschliche Präferenz in offenen Gesprächen, basierend auf anonymen Paarvergleichen zwischen Modellen	Weit referenziert - spiegelt echte Nutzerpräferenzen wider und nicht nur kontrollierte Testleistung
LiveCodeBench	Codegenerierung bei neu veröffentlichten Competitive-Programming-Aufgaben, entwickelt, um eine Kontamination der Trainingsdaten zu verringern	Aktiv - wird regelmäßig aktualisiert und ist damit einer der aktuellsten verfügbaren Coding-Benchmarks
AIME 2025	Fortgeschrittenes mathematisches Denken durch Aufgaben im Olympiade-Stil, die mehrstufige Problemlösung erfordern	Aktiv und sehr anspruchsvoll - nur wenige Frontier-Modelle schneiden hier stark ab
SWE-bench Verified	Praxisnahes Software Engineering durch verifizierte GitHub-Issue-Lösungen über vollständige Codebasen hinweg	Goldstandard für Programmierung - bewertet praktische Engineering-Fähigkeiten über isolierte Codegenerierung hinaus

{% endtab %} {% tab title="Vollständige Benchmark-Liste " %}

Benchmark	Was es bewertet	Status
MMLU	Breites Wissen über 57 akademische Fächer hinweg, einschließlich MINT, Geisteswissenschaften und professioneller Disziplinen	Ausgereift
MMLU-Pro	Eine schwierigere Version von MMLU mit 10 Antwortmöglichkeiten, die Raten verringern und die Modellleistung besser trennen	Aktiv
GPQA Diamond	Wissenschaftliches Denken auf Expertenniveau in Biologie, Physik und Chemie	Aktiv
ARC-AGI 2	Abstrakte Mustererkennung und Schlussfolgerung aus ersten Prinzipien statt auswendig gelerntem Wissen	Aktiv
Humanity's Last Exam	Extrem schwierige, von Experten verfasste Fragen aus einem breiten Spektrum akademischer Bereiche	Aktiv
GSM8K	Einfache Mathe-Textaufgaben mit mehreren Schritten auf Grundschulniveau	Ausgereift
MATH	Mathematik auf Wettbewerbsniveau, die strukturierte Schlussfolgerungen und freie Antworten erfordert	Aktiv
AIME 2025	Mathematische Problemlösung auf Olympiade-Niveau mit tiefgehender mehrstufiger Schlussfolgerung	Aktiv
HumanEval	Generierung von Python-Funktionen aus natürlichen Sprachaufforderungen, bewertet anhand der Korrektheit von Unit-Tests	Ausgereift
HumanEval+	Eine strengere Erweiterung von HumanEval mit umfangreicherer Testabdeckung und mehr Randfällen	Aktiv
LiveCodeBench	Codegenerierung bei frischen Competitive-Programming-Aufgaben, regelmäßig aktualisiert, um das Kontaminationsrisiko zu verringern	Aktiv
SWE-bench Verified	Realistisches Software Engineering durch verifizierte Behebung von Issues über vollständige Codebasen hinweg	Goldstandard
SWE-bench Pro	Bewertung von Software Engineering auf Repository-Ebene mit breiterer Sprachunterstützung	Im Entstehen
IFEval	Wie genau ein Modell spezifische, überprüfbare Anweisungen mit eingeschränkten Ausgabeforderungen befolgt	Aktiv
BFCL v4	Tool-Nutzung und Function Calling in seriellen, parallelen, mehrstufigen und agentischen Workflows	Weit verbreitet
RULER	Langkontext-Retrieval, Tracking und Synthese über lange Dokumente hinweg	Aktiv
MMMU Pro	Multimodales Denken über akademische Fächer hinweg unter Verwendung von Text- und visuellen Eingaben	Aktiv
TruthfulQA	Faktische Zuverlässigkeit und Widerstand gegen häufige Missverständnisse sowie Prompts, die zu Halluzinationen neigen	Kontaminiert
HELM	Mehrdimensionale Bewertung über Genauigkeit, Kalibrierung, Robustheit, Fairness, Bias und Effizienz hinweg	Framework
Chatbot Arena (LMSYS)	Menschliche Präferenz in offenen Gesprächen durch anonyme Modellvergleiche Seite an Seite	Weit verbreitet

* Aktiv = heute noch nützlich, um Modellleistung zu unterscheiden * Ausgereift = Top-Modelle liegen zu nah beieinander für eine starke Unterscheidung * Im Entstehen = neuerer Benchmark mit wachsender Verbreitung * Goldstandard = stärkster Referenzpunkt in seiner Kategorie * Weit verbreitet = in der Praxis häufig referenziert * Kontaminiert = Ergebnisse können aufgrund von Überschneidungen mit Trainingsdaten weniger zuverlässig sein * Framework = besser für eine breite Bewertung als für ein direktes Ranking {% endtab %} {% endtabs %} ### Snapshot der Frontier-Model-Benchmarks (Mai 2026) * Ein richtungsweisender Vergleich führender Modelle über öffentlich berichtete Benchmarks hinweg. Leere Felder bedeuten, dass für die hier verwendete Quellenmenge kein direkt vergleichbarer öffentlicher Wert bestätigt werden konnte. | Modell | GPQA Diamond | SWE-bench Verified | ARC-AGI-2 | HLE | | ----------------------------- | ------------ | ------------------ | --------- | -------------------------------------------- | | **GPT-5.4** | 92% | - | 73.3% |

39,8 % ohne Tools
52,1 % mit Tools

| | **GPT-5.3-Codex** | 83.7% | - | - | - | | **GPT-5.2** | 71.2% | 72.8% | 52.9% |

34,5 % ohne Tools
45,5 % mit Tools

| | **Claude Opus 4.6** | 84.0% | 75.6% | 68.8% |

40,0 % ohne Tools
53,0 % mit Tools

| | **Claude Sonnet 4.6** | 79.9% | - | 58.3% |

33,2 % ohne Tools
49,0 % mit Tools

| | **Claude Opus 4.5** | 86.6% | 76.8% | - | - | | **Claude Sonnet 4.5** | 83.4% | 71.4% | - | - | | **Claude Haiku 4.5** | 64.6% | 66.6% | - | - | | **Gemini 3.1 Pro (Vorschau)** | 94.1% | 80.6% | 77.1% |

44,4 % ohne Tools
51,4 % mit Tools

| | **Gemini 3 Flash** | 89.8% | 75.8% | - | 33.7% | ### Benchmarks nach Anwendungsfall * Verschiedene Aufgaben erfordern unterschiedliche Bewertungssignale. Diese Tabelle hebt die Benchmarks hervor, die für gängige LLM-Anwendungsfälle am relevantesten sind, damit du dich auf die Werte konzentrieren kannst, die am besten zur jeweiligen Aufgabe passen.

Anwendungsfall	Primäre Benchmarks	Zusätzliche Referenzen
Allgemeinwissen und Q&A	MMLU-Pro, Chatbot Arena (LMSYS)	MMLU
Codegenerierung	SWE-bench Verified, LiveCodeBench, SWE-bench Pro	HumanEval+, BFCL v4
Mathematisches Denken	AIME 2025, MATH	GSM8K
Wissenschaftliches Denken	GPQA Diamond	Humanity's Last Exam
Kreatives Schreiben	Chatbot Arena Creative Writing	-
Anweisungsbefolgung	IFEval	Chatbot Arena (LMSYS)
Tool-Nutzung und Function Calling	BFCL v4	-
Langkontext-Verständnis	RULER, Needle-in-a-Haystack	LongGenBench
Multimodal und Vision	MMMU Pro, Arena Vision	MMMU
Mehrsprachige Aufgaben	MMMLU	MLNeedle
Agentische Workflows	SWE-bench, BFCL v4	WebArena, OSWorld
Sicherheit und faktische Zuverlässigkeit	HalluLens, SimpleQA	-

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://docs.en.theblockbrain.ai/de/fur-nutzer/alles-uber-llms/erfahren-sie-mehr-uber-llm-benchmarks.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.