Neues OpenAI-Model gpt4.1-mini jetzt in Fakeradar aktiv

Ein Qualitätssprung in jeder Disziplin
Bis gestern lief meine App Fakeradar, primär aus Kostengründen, auf dem OpenAI Model gpt4o-mini. Nun hat OpenAI genau dafür einen Nachfolger bereitgestellt. Die Benchmarks dafür sind faszinierend und unbedingt einen Grund das in die Tage gekommen gpt4o-mini zu ersetzen.
Hier der technische Vergleich der Modelle:
Vergleichstabelle: GPT-4o-mini vs. GPT-4.1-mini
[Zu erwähnen ist, dass es GPT4.1-mini ausschließlich über API verfügbar ist. Sie werden dieses Model eher nicht im klassischen ChatGPT vorfinden.]
Merkmal | GPT-4o-mini | GPT-4.1-mini |
---|---|---|
Modelltyp | Small Model, Fokus auf Kosten & Geschwindigkeit | Mid-Tier Model, Fokus auf Performance & Kontext |
Release | Juli 2024 | April 2025 |
Knowledge Cutoff | Oktober 2023 | Juni 2024 |
Kontextfenster (Tokens) | 128.000 | 1.047.576 (1 Mio.) |
Max. Output Tokens | 16.384 | 32.768 |
Input Modalitäten | Text, Bild | Text, Bild |
Output Modalitäten | Text | Text |
Preis Input (pro 1 Mio. Tokens) | $0.15 | $0.40 |
Preis Output (pro 1 Mio. Tokens) | $0.60 | $1.60 |
Blended Preis (3:1 Input:Output) | $0.26 | $0.70 |
Geschwindigkeit (Tokens/s) | 75–114 (je nach Quelle und API) | Nicht explizit angegeben, niedrige Latenz |
Latenz (Time-to-First-Token) | 0,36–0,42 Sekunden | Nicht explizit angegeben, sehr niedrig |
Feinjustierung/Fine-Tuning | Ideal für Distillation, Fine-Tuning möglich | Fine-Tuning möglich |
Stärken | Sehr günstig, schnelle Antworten, ideal für hohe Volumina und parallele Calls | Sehr großes Kontextfenster, starke Coding- und Dokument-Analyse, bessere Benchmark-Ergebnisse als GPT-4o-mini |
Einsatzgebiete | Chatbots, Echtzeit-Antworten, kostensensitive Anwendungen | Komplexe Softwareentwicklung, Dokumentenanalyse, Multi-Doc QA, Coding, strukturierte Outputs |
Besonderheiten | Outperformt GPT-3.5 Turbo bei geringeren Kosten; sehr effizient für Multimodalität | Outperformt GPT-4o-mini in vielen Benchmarks, 1 Mio. Kontext, besser für große und komplexe Aufgaben |
Preisvergleich (pro 1 Mio. Tokens)
Modell | Input | Output | Blended (3:1) |
---|---|---|---|
GPT-4o-mini | $0.15 | $0.60 | $0.26 |
GPT-4.1-mini | $0.40 | $1.60 | $0.70 |
Wie vermutet hat meine App danach zumindest in einem Bereich nur noch miserablen Output geliefert. Es gibt für mich hier mindestens eine bedeutende Veränderung, die meine App kurzfristig funktionslos gemacht hat.
Benchmark-Vergleich: GPT-4o-mini vs. GPT-4.1-mini
Benchmark/Test | GPT-4o-mini | GPT-4.1-mini |
---|---|---|
Release | Juli 2024 | April 2025 |
Wissensstand | Oktober 2023 | Juni 2024 |
Kontextfenster | 128.000 Tokens | 1.000.000 Tokens |
Max. Output Tokens | 16.384 | 32.768 |
MMLU (5-shot) | 82,0 % | 84,1 % |
HumanEval (Coding) | 87,2 % | ~88 % (geschätzt, ähnlich wie GPT-4o) |
SWE-bench Verified (Coding) | – | 54,6 % |
MultiChallenge | 20,3 % | 35,8 % |
Instruction Following (API, hard) | 27,2 % | 45,1 % |
COLLIE | 52,7 % | 54,6 % |
IFEval | 78,4 % | 84,1 % |
Multi-IF | 57,9 % | 67,0 % |
MMMU (Multimodal Reasoning) | 59,4 % | ~61 % (geschätzt, ähnlich wie GPT-4o) |
Tokens/Sekunde | 75–85 | 77–85 |
Latenz (TTFT) | 0,36 s | ~0,20 s (fast halbiert) |
Kosten Input/Output | $0,15 / $0,60 pro 1 Mio. Tokens | $0,40 / $1,60 pro 1 Mio. Tokens |
Anmerkungen zu den Benchmarks
- MMLU (Massive Multitask Language Understanding): Testet breites Sprachverständnis und Wissensabdeckung.
- HumanEval: Bewertet die Fähigkeit, funktionierende Code-Snippets zu generieren.
- SWE-bench Verified: Realitätsnahe Softwareentwicklungsaufgaben, menschlich validiert.
- MultiChallenge: Komplexe Aufgaben zur Instruktionsbefolgung.
- Instruction Following (API, hard): Strenge Tests zur Einhaltung von Anweisungen.
- COLLIE, IFEval, Multi-IF: Verschiedene Benchmarks für logisches und instruktionsbasiertes Denken.
- MMMU: Multimodale Reasoning-Aufgaben (Text & Bild).
Meine App hat bei Prompts 2 Modis. Einmal eine schnelle Analyse mit einem »Direct Answer Prompting« und die detaillierten Auswertungen werden mit einem »Chain of Thought Prompting« durchgeführt. Hier ein Vergleich der Modis:
Vergleich: Direct Answer Prompting vs. Chain of Thought Prompting
Merkmal | Direct Answer Prompting | Chain of Thought Prompting (CoT) |
---|---|---|
Definition | Das Modell gibt direkt eine Antwort ohne erklärende Zwischenschritte. | Das Modell wird angewiesen, seine Antwort in mehreren, logisch aufeinander aufbauenden Schritten zu begründen. |
Prompt-Struktur | Kurze, klare Frage oder Aufgabe, gefolgt von einer direkten Antwort. | Frage/Aufgabe plus explizite Aufforderung, die Lösung Schritt für Schritt zu erklären (z.B. „Lass uns Schritt für Schritt denken“). |
Beispiel | „Was ist 5 + 7?“ → „12“ | „Was ist 5 + 7? Bitte erkläre deine Schritte.“ → „5 + 7 ergibt 12, weil 5 plus 5 = 10 und 2 dazu 12 ergibt.“ |
Komplexität der Aufgaben | Geeignet für einfache, klar umrissene Aufgaben. | Besonders geeignet für komplexe Aufgaben, die mehrstufiges Denken oder logisches Schlussfolgern erfordern (z.B. Mathe, Logik, Commonsense Reasoning). |
Erklärbarkeit/Transparenz | Gering – nur die Endantwort ist sichtbar. | Hoch – der Lösungsweg wird offengelegt, was die Nachvollziehbarkeit und das Debugging erleichtert. |
Genauigkeit bei komplexen Aufgaben | Oft niedriger, da Zwischenschritte fehlen und Fehler schwer nachvollziehbar sind. | Höher, da das Modell gezwungen ist, die Aufgabe schrittweise zu lösen und Fehlerquellen sichtbar werden. |
Tokenverbrauch | Gering, da nur die Antwort generiert wird. | Höher, da zusätzliche Erklärungsschritte generiert werden. |
Modellgröße (Effektivität) | Funktioniert mit allen Modellgrößen, aber größere Modelle liefern generell bessere Ergebnisse. | Besonders effektiv bei großen Modellen (>100B Parameter); kleinere Modelle können fehlerhafte oder unsinnige Ketten produzieren. |
Implementierungsaufwand | Minimal, da keine speziellen Anweisungen oder Beispiele erforderlich sind. | Höher, da explizite Schritt-für-Schritt-Anweisungen oder Beispiele im Prompt enthalten sein sollten. |
Anwendungsfälle | Faktenabfragen, einfache Rechenaufgaben, direkte Wissensfragen. | Mathematische Aufgaben, logische Schlussfolgerungen, komplexe Entscheidungsfindung, Erklärungen, wissenschaftliche Fragestellungen. |
Nun hat des Update des KI-Models bewirkt, dass die »Direct Answer Prompts« absolut gar nicht mehr funktioniert haben. Die Ausgabe war so kurz, dass sie im Kontext von »Fakeradar« nicht mehr sinnvoll einsetzbar waren.
Ich habe von gestern zu heute die Prompts neu aufgebaut und strukturieren lassen. Folgendes Wissen war dafür nicht unerheblich:
Unterschiede im Prompting von gpt40-mini und gpt-4.1-mini
Die freundliche KI von nebenan fasst die Unterschiede beider Modelle wie folgt zusammen:
1. Modellfähigkeiten & Prompt-Toleranz
gpt-4o-mini
- Weniger Kontexttiefe: Kann weniger Kontext (weniger Tokens) gleichzeitig im Prompt aufnehmen und behalten.
- Weniger tolerant gegenüber komplexen Prompts: Reagiert tendenziell empfindlicher auf verschachtelte, lange oder widersprüchliche Anweisungen. Brechen oder Abschwächung von Detailinstruktionen ist häufiger.
- Einfachere Strukturierung bevorzugt: Bessere Ergebnisse bei kurzen, klar gegliederten Prompts; Listen, klare Schrittfolgen und wenig Formatierung helfen.
- Lange Aufgaben oder verschachtelte Anforderungen (z.B. komplexe Schleifen, tiefe Bewertungen mit dutzenden Einzelkriterien): Liefert oft gekürzte, grobe oder nur teilweise vollständige Antworten.
gpt-4.1-mini
- Mehr Kontexttiefe (meist größere Tokenfenster): Kann umfangreichere Prompts und größere kontextbezogene Aufgabenstrukturen besser verarbeiten.
- Besseres Verständnis für verschachtelte Szenarien: Komplexe Aufgaben mit mehreren Teilanweisungen oder Bedingungen werden zuverlässiger erfüllt.
- Mehr Details und mehrschrittige Logik sind möglich: Auch längere, strukturierte Prompts oder „Chain of Thought“ (Schritt-für-Schritt-Erklärungen) funktionieren stabiler.
- Format- und Layoutwünsche (z.B. Markdown/HTML, Listen, Überschriften) werden präziser umgesetzt und seltener ignoriert.
2. Prompt-Formulierung & Stil
Für gpt-4o-mini:
- Kürzere Einzelaufgaben pro Prompt: Unterteile große Aufgaben in mehrere Prompts/Schritte.
- Klare, numerierte Listen für Schritte und Kriterien nutzen.
- Formatwünsche sparsam einsetzen: Keine komplexen Formatierungen oder detaillierte Markdown/HTML-Regeln.
- Bei langen Prompts Werte wie „mindestens X Wörter“ vermeiden: Tendenziell wird dann höchstens der Minimalwert geliefert.
- Erklärungen zu jeder Anweisung: Bei Bedarf Extra-Hinweise geben („Tue jetzt X. Danach frage nach Y“), weil das Modell Umstände weniger automatisch versteht.
- Weniger verschachtelte Bedingungen und Schleifen: Vermeide „Wenn…falls…mache…ansonsten…“
Für gpt-4.1-mini:
- Umfassendere und verschachtelte Anweisungen möglich.
- Einzelne Teilaufgaben können detaillierter und mit mehreren Formatierungsanweisungen versehen werden.
- Formatwünsche und Ausgabestrukturen (z.B. verschiedene Formatstile für Teilbereiche) werden besser eingehalten.
- Mehrstufige Bewertungslogik mit Gewichtungen, Einzel- und Gesamtwert, Chain of Thought usw. sind umsetzbar.
- Prompt kann länger und strukturierter sein: Das Modell hält die Übersicht besser und priorisiert weniger drastisch herunter.
- Automatisches Nachfragen oder Iterationsanweisungen werden zuverlässiger befolgt.
3. Typische Fehlerquellen im Wechsel
- 4o-mini: Zu lange, komplexe oder widersprüchliche Prompts führen zu Outputverlust, Schrittüberspringen oder Ausgaben, die den Prompt nur teilweise widerspiegeln.
- 4.1-mini: Ist weniger anfällig für solche Fehler, gibt aber ggf. noch immer bei Input-Overflow oder hochgradigen Widersprüchen nach, insgesamt aber robuster und vollständiger.
Zusammengefasst
Für gpt-4o-mini:
- Kurz, klar, einfach. Schritt für Schritt, wenig Parallelanforderungen, möglichst keine komplexen Schleifen und keine langen Block-Anweisungen.
- Formatierungen minimieren; Fokus auf Kernaufgabe, keine Überfrachtung.
Für gpt-4.1-mini:
- Komplexe, strukturierte Prompts sind möglich.
- Mehrfachformatierungen, Gewichtungen und verschachtelte Instruktionen sind meist zuverlässig abbildbar.
- Prompt kann länger, vielschichtiger und detaillierter sein.
Conclusio
Wenn wir uns die Zusammenfassung anschauen, sehen wir auch den Grund, warum der Wechsel der Modelle unbedingt notwendig war. Die Prompts, die meine App antreiben, sind und waren schon immer komplex, und augenscheinlich haben sie auch mit dem Model gpt4o-mini funktioniert, nur mit dem neuen Model sollte die Komplexität wesentlich besser verstanden werden, was wiederum für eine erheblich höhere Genauigkeit sorgen sollte.
Ich habe gerade nicht so sehr die Zeit zum Testen. Lasst euch gern aus und wenn Ihr Lust habt, findet ihr den Weg ins Forum.