Googles neuestes Gemini-KI-Modell übertrifft die GPT-4o-Technologie von OpenAI

2024/11/15

Googles neues Gemini-Exp-1114-Modell bringt frischen Wind in die KI-Benchmarking-Landschaft

Chatbot Arena hat sich zu einer führenden offenen Plattform für Crowdsourcing-Benchmarking von KI entwickelt. In den letzten zwei Jahren dominierten die Modelle von OpenAI die Rangliste und erreichten bei verschiedenen KI-Bewertungen durchweg Spitzenplätze. Während die Modelle Gemini von Google und Claude von Anthropic in bestimmten Kategorien beeindruckende Ergebnisse zeigten, hat OpenAI in diesem Bereich weitgehend eine konkurrenzlose Präsenz bewahrt.

Kürzlich stellte Chatbot Arena ein experimentelles Modell von Google vor, das als Gemini-Exp-1114 bekannt ist. Diese neue Ergänzung wurde strengen Tests unterzogen und erhielt in der vergangenen Woche über 6.000 Stimmen von der Community, was sie auf den gemeinsamen ersten Platz neben OpenAIs neuestem Modell, ChatGPT-4o-latest (Stand: 3. September 2024), brachte. Die Punktzahl für diese Iteration des Gemini-Modells hat sich deutlich verbessert und ist von 1301 auf 1344 gestiegen, womit es in der Gesamtleistung sogar OpenAIs o1-preview-Modell übertrifft.

Wichtige Erfolge von Gemini-Exp-1114

Laut Daten von Chatbot Arena führt Gemini-Exp-1114 derzeit die Vision-Bestenliste an und hat auch in den folgenden Kategorien den ersten Platz belegt:

Mathe
Kreatives Schreiben
Längere Abfrage
Anweisung befolgen
Multiturn-Interaktionen
Schwierige Eingabeaufforderungen

Im Bereich Codierung sicherte sich dieses neue Modell den 3. Platz; es zeigt jedoch eine beeindruckende Leistung bei Hard Prompts mit Stilkontrolle. Zum Vergleich: OpenAIs o1-preview-Modell ist weiterhin führend sowohl bei Codierungseffizienz als auch bei Stilkontrollmetriken. Bei der Analyse der Gewinnraten-Heatmap sehen wir, dass Gemini-Exp-1114 eine Gewinnrate von 50 % gegen GPT-4o-latest, 56 % gegen o1-preview und 62 % gegen Claude-3.5-Sonnet erreicht.

Aktuelle Verbesserungen und Leistungsmetriken

Diesen September stellte Google die Gemini 1.5-Reihe vor, die Verbesserungen wie eine Steigerung der MMLU-Pro-Ergebnisse um etwa 7 % und eine signifikante Verbesserung der MATH- und HiddenMath-Benchmarks um 20 % aufweist. Die neueren Modelle weisen auch Verbesserungen von 2–7 % bei visuellen und codebezogenen Anwendungsfällen auf. Insbesondere wurde die allgemeine Nützlichkeit der Antworten verbessert, wobei Google betont, dass das neue Modell tendenziell präzisere Antworten liefert. Die Standardausgabelänge für diese aktualisierten Modelle ist jetzt etwa 5–20 % kürzer als bei ihren Vorgängern.

Wer die Ergebnisse des Gemini-Exp-1114-Modells erkunden oder es ausprobieren möchte, findet hier ausführliche Informationen . Entwickler werden ermutigt, dieses hochmoderne Modell im Google AI Studio zu testen. Die Verfügbarkeit über eine API ist in Planung.

Quelle & Bilder

Googles neues Gemini-Exp-1114-Modell bringt frischen Wind in die KI-Benchmarking-Landschaft

Wichtige Erfolge von Gemini-Exp-1114

Aktuelle Verbesserungen und Leistungsmetriken

Schreibe einen Kommentar Antworten abbrechen