Ein Qualitätssprung in jeder Disziplin

Bis gestern lief meine App Fakeradar, primär aus Kostengründen, auf dem OpenAI Model gpt4o-mini. Nun hat OpenAI genau dafür einen Nachfolger bereitgestellt. Die Benchmarks dafür sind faszinierend und unbedingt einen Grund das in die Tage gekommen gpt4o-mini zu ersetzen.

Hier der technische Vergleich der Modelle:

Vergleichstabelle: GPT-4o-mini vs. GPT-4.1-mini

[Zu erwähnen ist, dass es GPT4.1-mini ausschließlich über API verfügbar ist. Sie werden dieses Model eher nicht im klassischen ChatGPT vorfinden.]

Merkmal	GPT-4o-mini	GPT-4.1-mini
Modelltyp	Small Model, Fokus auf Kosten & Geschwindigkeit	Mid-Tier Model, Fokus auf Performance & Kontext
Release	Juli 2024	April 2025
Knowledge Cutoff	Oktober 2023	Juni 2024
Kontextfenster (Tokens)	128.000	1.047.576 (1 Mio.)
Max. Output Tokens	16.384	32.768
Input Modalitäten	Text, Bild	Text, Bild
Output Modalitäten	Text	Text
Preis Input (pro 1 Mio. Tokens)	$0.15	$0.40
Preis Output (pro 1 Mio. Tokens)	$0.60	$1.60
Blended Preis (3:1 Input:Output)	$0.26	$0.70
Geschwindigkeit (Tokens/s)	75–114 (je nach Quelle und API)	Nicht explizit angegeben, niedrige Latenz
Latenz (Time-to-First-Token)	0,36–0,42 Sekunden	Nicht explizit angegeben, sehr niedrig
Feinjustierung/Fine-Tuning	Ideal für Distillation, Fine-Tuning möglich	Fine-Tuning möglich
Stärken	Sehr günstig, schnelle Antworten, ideal für hohe Volumina und parallele Calls	Sehr großes Kontextfenster, starke Coding- und Dokument-Analyse, bessere Benchmark-Ergebnisse als GPT-4o-mini
Einsatzgebiete	Chatbots, Echtzeit-Antworten, kostensensitive Anwendungen	Komplexe Softwareentwicklung, Dokumentenanalyse, Multi-Doc QA, Coding, strukturierte Outputs
Besonderheiten	Outperformt GPT-3.5 Turbo bei geringeren Kosten; sehr effizient für Multimodalität	Outperformt GPT-4o-mini in vielen Benchmarks, 1 Mio. Kontext, besser für große und komplexe Aufgaben

Preisvergleich (pro 1 Mio. Tokens)

Modell	Input	Output	Blended (3:1)
GPT-4o-mini	$0.15	$0.60	$0.26
GPT-4.1-mini	$0.40	$1.60	$0.70

Wie vermutet hat meine App danach zumindest in einem Bereich nur noch miserablen Output geliefert. Es gibt für mich hier mindestens eine bedeutende Veränderung, die meine App kurzfristig funktionslos gemacht hat.

Benchmark-Vergleich: GPT-4o-mini vs. GPT-4.1-mini

Benchmark/Test	GPT-4o-mini	GPT-4.1-mini
Release	Juli 2024	April 2025
Wissensstand	Oktober 2023	Juni 2024
Kontextfenster	128.000 Tokens	1.000.000 Tokens
Max. Output Tokens	16.384	32.768
MMLU (5-shot)	82,0 %	84,1 %
HumanEval (Coding)	87,2 %	~88 % (geschätzt, ähnlich wie GPT-4o)
SWE-bench Verified (Coding)	–	54,6 %
MultiChallenge	20,3 %	35,8 %
Instruction Following (API, hard)	27,2 %	45,1 %
COLLIE	52,7 %	54,6 %
IFEval	78,4 %	84,1 %
Multi-IF	57,9 %	67,0 %
MMMU (Multimodal Reasoning)	59,4 %	~61 % (geschätzt, ähnlich wie GPT-4o)
Tokens/Sekunde	75–85	77–85
Latenz (TTFT)	0,36 s	~0,20 s (fast halbiert)
Kosten Input/Output	$0,15 / $0,60 pro 1 Mio. Tokens	$0,40 / $1,60 pro 1 Mio. Tokens

Anmerkungen zu den Benchmarks

MMLU (Massive Multitask Language Understanding): Testet breites Sprachverständnis und Wissensabdeckung.
HumanEval: Bewertet die Fähigkeit, funktionierende Code-Snippets zu generieren.
SWE-bench Verified: Realitätsnahe Softwareentwicklungsaufgaben, menschlich validiert.
MultiChallenge: Komplexe Aufgaben zur Instruktionsbefolgung.
Instruction Following (API, hard): Strenge Tests zur Einhaltung von Anweisungen.
COLLIE, IFEval, Multi-IF: Verschiedene Benchmarks für logisches und instruktionsbasiertes Denken.
MMMU: Multimodale Reasoning-Aufgaben (Text & Bild).

Meine App hat bei Prompts 2 Modis. Einmal eine schnelle Analyse mit einem »Direct Answer Prompting« und die detaillierten Auswertungen werden mit einem »Chain of Thought Prompting« durchgeführt. Hier ein Vergleich der Modis:

Vergleich: Direct Answer Prompting vs. Chain of Thought Prompting

Merkmal	Direct Answer Prompting	Chain of Thought Prompting (CoT)
Definition	Das Modell gibt direkt eine Antwort ohne erklärende Zwischenschritte.	Das Modell wird angewiesen, seine Antwort in mehreren, logisch aufeinander aufbauenden Schritten zu begründen.
Prompt-Struktur	Kurze, klare Frage oder Aufgabe, gefolgt von einer direkten Antwort.	Frage/Aufgabe plus explizite Aufforderung, die Lösung Schritt für Schritt zu erklären (z.B. „Lass uns Schritt für Schritt denken“).
Beispiel	„Was ist 5 + 7?“ → „12“	„Was ist 5 + 7? Bitte erkläre deine Schritte.“ → „5 + 7 ergibt 12, weil 5 plus 5 = 10 und 2 dazu 12 ergibt.“
Komplexität der Aufgaben	Geeignet für einfache, klar umrissene Aufgaben.	Besonders geeignet für komplexe Aufgaben, die mehrstufiges Denken oder logisches Schlussfolgern erfordern (z.B. Mathe, Logik, Commonsense Reasoning).
Erklärbarkeit/Transparenz	Gering – nur die Endantwort ist sichtbar.	Hoch – der Lösungsweg wird offengelegt, was die Nachvollziehbarkeit und das Debugging erleichtert.
Genauigkeit bei komplexen Aufgaben	Oft niedriger, da Zwischenschritte fehlen und Fehler schwer nachvollziehbar sind.	Höher, da das Modell gezwungen ist, die Aufgabe schrittweise zu lösen und Fehlerquellen sichtbar werden.
Tokenverbrauch	Gering, da nur die Antwort generiert wird.	Höher, da zusätzliche Erklärungsschritte generiert werden.
Modellgröße (Effektivität)	Funktioniert mit allen Modellgrößen, aber größere Modelle liefern generell bessere Ergebnisse.	Besonders effektiv bei großen Modellen (>100B Parameter); kleinere Modelle können fehlerhafte oder unsinnige Ketten produzieren.
Implementierungsaufwand	Minimal, da keine speziellen Anweisungen oder Beispiele erforderlich sind.	Höher, da explizite Schritt-für-Schritt-Anweisungen oder Beispiele im Prompt enthalten sein sollten.
Anwendungsfälle	Faktenabfragen, einfache Rechenaufgaben, direkte Wissensfragen.	Mathematische Aufgaben, logische Schlussfolgerungen, komplexe Entscheidungsfindung, Erklärungen, wissenschaftliche Fragestellungen.

Nun hat des Update des KI-Models bewirkt, dass die »Direct Answer Prompts« absolut gar nicht mehr funktioniert haben. Die Ausgabe war so kurz, dass sie im Kontext von »Fakeradar« nicht mehr sinnvoll einsetzbar waren.

Ich habe von gestern zu heute die Prompts neu aufgebaut und strukturieren lassen. Folgendes Wissen war dafür nicht unerheblich:

Unterschiede im Prompting von gpt40-mini und gpt-4.1-mini

Die freundliche KI von nebenan fasst die Unterschiede beider Modelle wie folgt zusammen:

1. Modellfähigkeiten & Prompt-Toleranz

gpt-4o-mini

Weniger Kontexttiefe: Kann weniger Kontext (weniger Tokens) gleichzeitig im Prompt aufnehmen und behalten.

Weniger tolerant gegenüber komplexen Prompts: Reagiert tendenziell empfindlicher auf verschachtelte, lange oder widersprüchliche Anweisungen. Brechen oder Abschwächung von Detailinstruktionen ist häufiger.

Einfachere Strukturierung bevorzugt: Bessere Ergebnisse bei kurzen, klar gegliederten Prompts; Listen, klare Schrittfolgen und wenig Formatierung helfen.

Lange Aufgaben oder verschachtelte Anforderungen (z.B. komplexe Schleifen, tiefe Bewertungen mit dutzenden Einzelkriterien): Liefert oft gekürzte, grobe oder nur teilweise vollständige Antworten.

gpt-4.1-mini

Mehr Kontexttiefe (meist größere Tokenfenster): Kann umfangreichere Prompts und größere kontextbezogene Aufgabenstrukturen besser verarbeiten.

Besseres Verständnis für verschachtelte Szenarien: Komplexe Aufgaben mit mehreren Teilanweisungen oder Bedingungen werden zuverlässiger erfüllt.

Mehr Details und mehrschrittige Logik sind möglich: Auch längere, strukturierte Prompts oder „Chain of Thought“ (Schritt-für-Schritt-Erklärungen) funktionieren stabiler.

Format- und Layoutwünsche (z.B. Markdown/HTML, Listen, Überschriften) werden präziser umgesetzt und seltener ignoriert.

2. Prompt-Formulierung & Stil

Für gpt-4o-mini:

Kürzere Einzelaufgaben pro Prompt: Unterteile große Aufgaben in mehrere Prompts/Schritte.

Klare, numerierte Listen für Schritte und Kriterien nutzen.

Formatwünsche sparsam einsetzen: Keine komplexen Formatierungen oder detaillierte Markdown/HTML-Regeln.

Bei langen Prompts Werte wie „mindestens X Wörter“ vermeiden: Tendenziell wird dann höchstens der Minimalwert geliefert.

Erklärungen zu jeder Anweisung: Bei Bedarf Extra-Hinweise geben („Tue jetzt X. Danach frage nach Y“), weil das Modell Umstände weniger automatisch versteht.

Weniger verschachtelte Bedingungen und Schleifen: Vermeide „Wenn…falls…mache…ansonsten…“

Für gpt-4.1-mini:

Umfassendere und verschachtelte Anweisungen möglich.

Einzelne Teilaufgaben können detaillierter und mit mehreren Formatierungsanweisungen versehen werden.

Formatwünsche und Ausgabestrukturen (z.B. verschiedene Formatstile für Teilbereiche) werden besser eingehalten.

Mehrstufige Bewertungslogik mit Gewichtungen, Einzel- und Gesamtwert, Chain of Thought usw. sind umsetzbar.

Prompt kann länger und strukturierter sein: Das Modell hält die Übersicht besser und priorisiert weniger drastisch herunter.

Automatisches Nachfragen oder Iterationsanweisungen werden zuverlässiger befolgt.

3. Typische Fehlerquellen im Wechsel

4o-mini: Zu lange, komplexe oder widersprüchliche Prompts führen zu Outputverlust, Schrittüberspringen oder Ausgaben, die den Prompt nur teilweise widerspiegeln.

4.1-mini: Ist weniger anfällig für solche Fehler, gibt aber ggf. noch immer bei Input-Overflow oder hochgradigen Widersprüchen nach, insgesamt aber robuster und vollständiger.

Zusammengefasst

Für gpt-4o-mini:

Kurz, klar, einfach. Schritt für Schritt, wenig Parallelanforderungen, möglichst keine komplexen Schleifen und keine langen Block-Anweisungen.

Formatierungen minimieren; Fokus auf Kernaufgabe, keine Überfrachtung.

Für gpt-4.1-mini:

Komplexe, strukturierte Prompts sind möglich.

Mehrfachformatierungen, Gewichtungen und verschachtelte Instruktionen sind meist zuverlässig abbildbar.

Prompt kann länger, vielschichtiger und detaillierter sein.

Conclusio

Wenn wir uns die Zusammenfassung anschauen, sehen wir auch den Grund, warum der Wechsel der Modelle unbedingt notwendig war. Die Prompts, die meine App antreiben, sind und waren schon immer komplex, und augenscheinlich haben sie auch mit dem Model gpt4o-mini funktioniert, nur mit dem neuen Model sollte die Komplexität wesentlich besser verstanden werden, was wiederum für eine erheblich höhere Genauigkeit sorgen sollte.

Ich habe gerade nicht so sehr die Zeit zum Testen. Lasst euch gern aus und wenn Ihr Lust habt, findet ihr den Weg ins Forum.

Fakeradar.de Prompts auf .github

Neues OpenAI-Model gpt4.1-mini jetzt in Fakeradar aktiv

Ein Qualitätssprung in jeder Disziplin

Hier der technische Vergleich der Modelle:

Preisvergleich (pro 1 Mio. Tokens)

Benchmark-Vergleich: GPT-4o-mini vs. GPT-4.1-mini

Anmerkungen zu den Benchmarks

Vergleich: Direct Answer Prompting vs. Chain of Thought Prompting

Unterschiede im Prompting von gpt40-mini und gpt-4.1-mini

1. Modellfähigkeiten & Prompt-Toleranz

gpt-4o-mini

gpt-4.1-mini

2. Prompt-Formulierung & Stil

Für gpt-4o-mini:

Für gpt-4.1-mini:

3. Typische Fehlerquellen im Wechsel

Zusammengefasst

Conclusio

Tom Scharlock

Ein Qualitätssprung in jeder Disziplin

Hier der technische Vergleich der Modelle:

Preisvergleich (pro 1 Mio. Tokens)

Benchmark-Vergleich: GPT-4o-mini vs. GPT-4.1-mini

Anmerkungen zu den Benchmarks

Vergleich: Direct Answer Prompting vs. Chain of Thought Prompting

Unterschiede im Prompting von gpt40-mini und gpt-4.1-mini

1. Modellfähigkeiten & Prompt-Toleranz

gpt-4o-mini

gpt-4.1-mini

2. Prompt-Formulierung & Stil

Für gpt-4o-mini:

Für gpt-4.1-mini:

3. Typische Fehlerquellen im Wechsel

Zusammengefasst

Conclusio

Tom Scharlock

tiefer tauchen

Stadt App mit maximaler Integration von künstlicher Intelligenz (KI)

WordPress 2025 ᵛⁱᵈᵉᵒᴮᴸᴼᴳ Imposante Neuerungen

Die Stadt-KI von Arnstadt – Ein intelligenter digitaler Helfer

Gerade gefragt