Neues OpenAI-Model gpt4.1-mini jetzt in Fakeradar aktiv

Fakeradar neues Model gpt 4.1-mini

Ein Qualitätssprung in jeder Disziplin

Bis gestern lief meine App Fakeradar, primär aus Kostengründen, auf dem OpenAI Model gpt4o-mini. Nun hat OpenAI genau dafür einen Nachfolger bereitgestellt. Die Benchmarks dafür sind faszinierend und unbedingt einen Grund das in die Tage gekommen gpt4o-mini zu ersetzen.

Hier der technische Vergleich der Modelle:

Vergleichstabelle: GPT-4o-mini vs. GPT-4.1-mini

[Zu erwähnen ist, dass es GPT4.1-mini ausschließlich über API verfügbar ist. Sie werden dieses Model eher nicht im klassischen ChatGPT vorfinden.]

MerkmalGPT-4o-miniGPT-4.1-mini
ModelltypSmall Model, Fokus auf Kosten & GeschwindigkeitMid-Tier Model, Fokus auf Performance & Kontext
ReleaseJuli 2024April 2025
Knowledge CutoffOktober 2023Juni 2024
Kontextfenster (Tokens)128.0001.047.576 (1 Mio.)
Max. Output Tokens16.38432.768
Input ModalitätenText, BildText, Bild
Output ModalitätenTextText
Preis Input (pro 1 Mio. Tokens)$0.15$0.40
Preis Output (pro 1 Mio. Tokens)$0.60$1.60
Blended Preis (3:1 Input:Output)$0.26$0.70
Geschwindigkeit (Tokens/s)75–114 (je nach Quelle und API)Nicht explizit angegeben, niedrige Latenz
Latenz (Time-to-First-Token)0,36–0,42 SekundenNicht explizit angegeben, sehr niedrig
Feinjustierung/Fine-TuningIdeal für Distillation, Fine-Tuning möglichFine-Tuning möglich
StärkenSehr günstig, schnelle Antworten, ideal für hohe Volumina und parallele CallsSehr großes Kontextfenster, starke Coding- und Dokument-Analyse, bessere Benchmark-Ergebnisse als GPT-4o-mini
EinsatzgebieteChatbots, Echtzeit-Antworten, kostensensitive AnwendungenKomplexe Softwareentwicklung, Dokumentenanalyse, Multi-Doc QA, Coding, strukturierte Outputs
BesonderheitenOutperformt GPT-3.5 Turbo bei geringeren Kosten; sehr effizient für MultimodalitätOutperformt GPT-4o-mini in vielen Benchmarks, 1 Mio. Kontext, besser für große und komplexe Aufgaben
Preisvergleich (pro 1 Mio. Tokens)
ModellInputOutputBlended (3:1)
GPT-4o-mini$0.15$0.60$0.26
GPT-4.1-mini$0.40$1.60$0.70

Wie vermutet hat meine App danach zumindest in einem Bereich nur noch miserablen Output geliefert. Es gibt für mich hier mindestens eine bedeutende Veränderung, die meine App kurzfristig funktionslos gemacht hat.

Benchmark-Vergleich: GPT-4o-mini vs. GPT-4.1-mini
Benchmark/TestGPT-4o-miniGPT-4.1-mini
ReleaseJuli 2024April 2025
WissensstandOktober 2023Juni 2024
Kontextfenster128.000 Tokens1.000.000 Tokens
Max. Output Tokens16.38432.768
MMLU (5-shot)82,0 %84,1 %
HumanEval (Coding)87,2 %~88 % (geschätzt, ähnlich wie GPT-4o)
SWE-bench Verified (Coding)54,6 %
MultiChallenge20,3 %35,8 %
Instruction Following (API, hard)27,2 %45,1 %
COLLIE52,7 %54,6 %
IFEval78,4 %84,1 %
Multi-IF57,9 %67,0 %
MMMU (Multimodal Reasoning)59,4 %~61 % (geschätzt, ähnlich wie GPT-4o)
Tokens/Sekunde75–8577–85
Latenz (TTFT)0,36 s~0,20 s (fast halbiert)
Kosten Input/Output$0,15 / $0,60 pro 1 Mio. Tokens$0,40 / $1,60 pro 1 Mio. Tokens
Anmerkungen zu den Benchmarks
  • MMLU (Massive Multitask Language Understanding): Testet breites Sprachverständnis und Wissensabdeckung.
  • HumanEval: Bewertet die Fähigkeit, funktionierende Code-Snippets zu generieren.
  • SWE-bench Verified: Realitätsnahe Softwareentwicklungsaufgaben, menschlich validiert.
  • MultiChallenge: Komplexe Aufgaben zur Instruktionsbefolgung.
  • Instruction Following (API, hard): Strenge Tests zur Einhaltung von Anweisungen.
  • COLLIE, IFEval, Multi-IF: Verschiedene Benchmarks für logisches und instruktionsbasiertes Denken.
  • MMMU: Multimodale Reasoning-Aufgaben (Text & Bild).

Meine App hat bei Prompts 2 Modis. Einmal eine schnelle Analyse mit einem »Direct Answer Prompting« und die detaillierten Auswertungen werden mit einem »Chain of Thought Prompting« durchgeführt. Hier ein Vergleich der Modis:

Vergleich: Direct Answer Prompting vs. Chain of Thought Prompting
MerkmalDirect Answer PromptingChain of Thought Prompting (CoT)
DefinitionDas Modell gibt direkt eine Antwort ohne erklärende Zwischenschritte.Das Modell wird angewiesen, seine Antwort in mehreren, logisch aufeinander aufbauenden Schritten zu begründen.
Prompt-StrukturKurze, klare Frage oder Aufgabe, gefolgt von einer direkten Antwort.Frage/Aufgabe plus explizite Aufforderung, die Lösung Schritt für Schritt zu erklären (z.B. „Lass uns Schritt für Schritt denken“).
Beispiel„Was ist 5 + 7?“ → „12“„Was ist 5 + 7? Bitte erkläre deine Schritte.“ → „5 + 7 ergibt 12, weil 5 plus 5 = 10 und 2 dazu 12 ergibt.“
Komplexität der AufgabenGeeignet für einfache, klar umrissene Aufgaben.Besonders geeignet für komplexe Aufgaben, die mehrstufiges Denken oder logisches Schlussfolgern erfordern (z.B. Mathe, Logik, Commonsense Reasoning).
Erklärbarkeit/TransparenzGering – nur die Endantwort ist sichtbar.Hoch – der Lösungsweg wird offengelegt, was die Nachvollziehbarkeit und das Debugging erleichtert.
Genauigkeit bei komplexen AufgabenOft niedriger, da Zwischenschritte fehlen und Fehler schwer nachvollziehbar sind.Höher, da das Modell gezwungen ist, die Aufgabe schrittweise zu lösen und Fehlerquellen sichtbar werden.
TokenverbrauchGering, da nur die Antwort generiert wird.Höher, da zusätzliche Erklärungsschritte generiert werden.
Modellgröße (Effektivität)Funktioniert mit allen Modellgrößen, aber größere Modelle liefern generell bessere Ergebnisse.Besonders effektiv bei großen Modellen (>100B Parameter); kleinere Modelle können fehlerhafte oder unsinnige Ketten produzieren.
ImplementierungsaufwandMinimal, da keine speziellen Anweisungen oder Beispiele erforderlich sind.Höher, da explizite Schritt-für-Schritt-Anweisungen oder Beispiele im Prompt enthalten sein sollten.
AnwendungsfälleFaktenabfragen, einfache Rechenaufgaben, direkte Wissensfragen.Mathematische Aufgaben, logische Schlussfolgerungen, komplexe Entscheidungsfindung, Erklärungen, wissenschaftliche Fragestellungen.

Nun hat des Update des KI-Models bewirkt, dass die »Direct Answer Prompts« absolut gar nicht mehr funktioniert haben. Die Ausgabe war so kurz, dass sie im Kontext von »Fakeradar« nicht mehr sinnvoll einsetzbar waren.

Ich habe von gestern zu heute die Prompts neu aufgebaut und strukturieren lassen. Folgendes Wissen war dafür nicht unerheblich:

Unterschiede im Prompting von gpt40-mini und gpt-4.1-mini

Die freundliche KI von nebenan fasst die Unterschiede beider Modelle wie folgt zusammen:

1. Modellfähigkeiten & Prompt-Toleranz

gpt-4o-mini
  • Weniger Kontexttiefe: Kann weniger Kontext (weniger Tokens) gleichzeitig im Prompt aufnehmen und behalten.
  • Weniger tolerant gegenüber komplexen Prompts: Reagiert tendenziell empfindlicher auf verschachtelte, lange oder widersprüchliche Anweisungen. Brechen oder Abschwächung von Detailinstruktionen ist häufiger.
  • Einfachere Strukturierung bevorzugt: Bessere Ergebnisse bei kurzen, klar gegliederten Prompts; Listen, klare Schrittfolgen und wenig Formatierung helfen.
  • Lange Aufgaben oder verschachtelte Anforderungen (z.B. komplexe Schleifen, tiefe Bewertungen mit dutzenden Einzelkriterien): Liefert oft gekürzte, grobe oder nur teilweise vollständige Antworten.
gpt-4.1-mini
  • Mehr Kontexttiefe (meist größere Tokenfenster): Kann umfangreichere Prompts und größere kontextbezogene Aufgabenstrukturen besser verarbeiten.
  • Besseres Verständnis für verschachtelte Szenarien: Komplexe Aufgaben mit mehreren Teilanweisungen oder Bedingungen werden zuverlässiger erfüllt.
  • Mehr Details und mehrschrittige Logik sind möglich: Auch längere, strukturierte Prompts oder „Chain of Thought“ (Schritt-für-Schritt-Erklärungen) funktionieren stabiler.
  • Format- und Layoutwünsche (z.B. Markdown/HTML, Listen, Überschriften) werden präziser umgesetzt und seltener ignoriert.

2. Prompt-Formulierung & Stil

Für gpt-4o-mini:
  • Kürzere Einzelaufgaben pro Prompt: Unterteile große Aufgaben in mehrere Prompts/Schritte.
  • Klare, numerierte Listen für Schritte und Kriterien nutzen.
  • Formatwünsche sparsam einsetzen: Keine komplexen Formatierungen oder detaillierte Markdown/HTML-Regeln.
  • Bei langen Prompts Werte wie „mindestens X Wörter“ vermeiden: Tendenziell wird dann höchstens der Minimalwert geliefert.
  • Erklärungen zu jeder Anweisung: Bei Bedarf Extra-Hinweise geben („Tue jetzt X. Danach frage nach Y“), weil das Modell Umstände weniger automatisch versteht.
  • Weniger verschachtelte Bedingungen und Schleifen: Vermeide „Wenn…falls…mache…ansonsten…“
Für gpt-4.1-mini:
  • Umfassendere und verschachtelte Anweisungen möglich.
  • Einzelne Teilaufgaben können detaillierter und mit mehreren Formatierungsanweisungen versehen werden.
  • Formatwünsche und Ausgabestrukturen (z.B. verschiedene Formatstile für Teilbereiche) werden besser eingehalten.
  • Mehrstufige Bewertungslogik mit Gewichtungen, Einzel- und Gesamtwert, Chain of Thought usw. sind umsetzbar.
  • Prompt kann länger und strukturierter sein: Das Modell hält die Übersicht besser und priorisiert weniger drastisch herunter.
  • Automatisches Nachfragen oder Iterationsanweisungen werden zuverlässiger befolgt.

3. Typische Fehlerquellen im Wechsel

  • 4o-mini: Zu lange, komplexe oder widersprüchliche Prompts führen zu Outputverlust, Schrittüberspringen oder Ausgaben, die den Prompt nur teilweise widerspiegeln.
  • 4.1-mini: Ist weniger anfällig für solche Fehler, gibt aber ggf. noch immer bei Input-Overflow oder hochgradigen Widersprüchen nach, insgesamt aber robuster und vollständiger.

Zusammengefasst

Für gpt-4o-mini:

  • Kurz, klar, einfach. Schritt für Schritt, wenig Parallelanforderungen, möglichst keine komplexen Schleifen und keine langen Block-Anweisungen.
  • Formatierungen minimieren; Fokus auf Kernaufgabe, keine Überfrachtung.

Für gpt-4.1-mini:

  • Komplexe, strukturierte Prompts sind möglich.
  • Mehrfachformatierungen, Gewichtungen und verschachtelte Instruktionen sind meist zuverlässig abbildbar.
  • Prompt kann länger, vielschichtiger und detaillierter sein.

Conclusio

Wenn wir uns die Zusammenfassung anschauen, sehen wir auch den Grund, warum der Wechsel der Modelle unbedingt notwendig war. Die Prompts, die meine App antreiben, sind und waren schon immer komplex, und augenscheinlich haben sie auch mit dem Model gpt4o-mini funktioniert, nur mit dem neuen Model sollte die Komplexität wesentlich besser verstanden werden, was wiederum für eine erheblich höhere Genauigkeit sorgen sollte.

Ich habe gerade nicht so sehr die Zeit zum Testen. Lasst euch gern aus und wenn Ihr Lust habt, findet ihr den Weg ins Forum.

Das musst du sehen...
Tom Scharlock
Tom Scharlock

PWA.ist ein PWA App Store, ein Blog, eine Video Wissensseite und die Agenturpräsenz der PRGRSV ::Agentur Arnstadt. Ganz neu sind die PWA & WEB Tools Meine Biografie

Artikel: 123