NVLM 1.0 von NVIDIA: Eine leistungsstarke Alternative zu GPT-4o mit beeindruckenden Ergebnissen
14:48, 19.09.2024
NVIDIA hat eine neue Familie von multimodalen NVLM-Modellen (NVIDIA Vision Language Model) angekündigt, die hervorragende Ergebnisse bei einer Reihe von visuellen und sprachlichen Aufgaben liefern. Die Familie umfasst drei Hauptmodelle: NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) und NVLM-H (Hybrid Modell), die jeweils in Konfigurationen mit 34 und 72 Milliarden Parametern erhältlich sind.
Eine der wichtigsten Eigenschaften der Modelle ist ihre Fähigkeit, visuelle Aufgaben effizient zu bewältigen. Im OCRBench-Test, der die Fähigkeit testet, Text aus Bildern zu erkennen, übertraf das NVLM-D-Modell das GPT-4o von OpenAI, ein wichtiger Durchbruch bei multimodalen Lösungen. Außerdem sind die Modelle in der Lage, Meme zu verstehen, menschliche Handschriften zu analysieren und Fragen zu beantworten, die eine genaue Analyse der Position von Objekten in Bildern erfordern.
NVLMs schneiden auch bei Mathematikaufgaben gut ab, wo sie die Modelle von Google übertreffen und nur drei Punkte hinter dem Spitzenreiter, dem Modell Claude 3.5 des Startups Anthropic, liegen.
Jedes der drei Modelle hat unterschiedliche Eigenschaften.
- NVLM-D verwendet einen vortrainierten Encoder und ein mehrschichtiges Perzeptron, was es kostengünstig macht, aber mehr GPU-Ressourcen erfordert.
- NVLM-X verwendet einen Cross-Attention-Mechanismus, der besser mit hochauflösenden Bildern umgehen kann.
- NVLM-H kombiniert die Vorteile beider Modelle und schafft ein Gleichgewicht zwischen Effizienz und Genauigkeit.
NVIDIA baut seine Position im Bereich der künstlichen Intelligenz weiter aus, indem es Lösungen anbietet, die sowohl für die Forschung als auch für die Wirtschaft von Nutzen sein können.