DeepSeek V3: Rekordergebnisse in Benchmarks
13:55, 26.03.2025
Das neue DeepSeek-Modell erschien ohne Ankündigung auf HuggingFace. Und nur einen Tag später gab es eine ausführliche Ankündigung mit einer Beschreibung.
Programmier- und Mathematik-Benchmarks
DeepSeek-V3-0324 zeigt rekordverdächtige Ergebnisse und schneidet in allen folgenden Kategorien deutlich besser ab als DeepSeek-V3:
- AIME: 59.4
- MMLU-Pro: 81.2
- LiveCodeBench: 49.2
- GPQA: 68.4
Auch in den meisten Ergebnissen schneidet V3-0324 besser ab als Claude 3.5.
DeepSeek erklärte, dass ihr neues Produkt auch Claude 3.7 übertrifft. Nach dieser Aussage tauchten Gerüchte über ein mögliches neues Modell auf, das auf Claude 3.7 trainiert wurde. Diese Informationen sind derzeit weder bestätigt noch dementiert worden.
Modell-Updates
Die wichtigsten Updates beziehen sich auf Code-Verbesserungen und bestimmte Änderungen an den Spieloberflächen und Webseiten. Darüber hinaus wurde die Qualität der Funktionsaufrufe geändert.
Außerdem hat das neue Projekt eine gute Basis für die Verarbeitung von Websuchergebnissen und das Lesen von Dateien. Darüber hinaus, das neue Modell wurde getestet und läuft problemlos auf Mac Studio.