New Qwen2.5-Max übertrifft die Fähigkeiten von DeepSeek
14:02, 31.01.2025
Nach den Veröffentlichungen von Qwen2.5 und Qwen2.5-VL ist nun eine neue Version von Qwen2.5-Max verfügbar. Die neue Version von Qwen zeigt in den folgenden Benchmarks eine überlegene Leistung gegenüber DeepSeek V3: GPQA-Diamond, Arena-Hard, LiveCodeBench und LiveBench.
Architektur und Modelleigenschaften
Die Max-Version ist ein groß angelegtes Projekt des Mixture-of-Experts-Modells. Die Einzigartigkeit dieses Modells liegt in der Schulung mit echtem Benutzerfeedback (RLHF), der Verwendung von Supervised Fine-Tuning und natürlich dem Training mit 20 Billionen Token.
Derzeit wurden die Daten der neuen Version noch nicht auf GitHub veröffentlicht. Der Zugriff ist vorerst nur über die API und Qwen Chat möglich. Die fehlenden Daten auf HuggingFace und GitHub könnten darauf hindeuten, dass das Unternehmen das Projekt eilig veröffentlicht hat oder gezielt die Nutzung seiner Cloud-Plattform fördern möchte.
Qwen hat Ergebnisse zur neuen Modellversion veröffentlicht. Laut der öffentlich zugänglichen Vergleichstabelle zwischen der neuen Qwen-Version, LLaMA3.1 und DeepSeek-V3 übertrifft die Max-Version ihre Konkurrenten in den meisten Kategorien. Im Vergleich zu Claude Sonnet und GPT unterliegt sie jedoch GPT.
Das Unternehmen hat ein erhebliches Budget in Trainingsdaten investiert, und die Überlegenheit gegenüber den Wettbewerbern ist vorhanden, aber relativ gering. Daher vermuten einige Experten, dass sich die Fähigkeiten von Sprachmodellen möglicherweise durch den Einsatz zusätzlicher Rechenleistung während des Testens erweitern lassen.