अलीबाबा क्यूवेन 2.5 विज़न लैंग्वेज मॉडल एक छोटे आकार में जारी, एजेंटिक क्षमताओं को पैक करता है

अलीबाबा की क्यूवेन टीम ने सोमवार को क्यूवेन 2.5 परिवार के लिए एक और आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया। डब किए गए Qwen 2.5-VL-32B निर्देश, AI मॉडल बेहतर प्रदर्शन और अनुकूलन के साथ आता है। यह 32 बिलियन मापदंडों के साथ एक दृष्टि भाषा मॉडल है, और Qwen 2.5 परिवार में तीन अरब, सात अरब और 72 बिलियन पैरामीटर आकार मॉडल में शामिल होता है। टीम द्वारा सभी पिछले मॉडल की तरह, यह एक खुला-स्रोत एआई मॉडल भी है जो एक अनुमेय लाइसेंस के तहत उपलब्ध है।

अलीबाबा Qwen 2.5-VL-32B AI मॉडल जारी करता है

में एक ब्लॉग भेजाक्यूवेन टीम ने कंपनी के नवीनतम विजन लैंग्वेज मॉडल (वीएलएम) को विस्तृत किया। यह Qwen 2.5 3B और 7B मॉडल की तुलना में अधिक सक्षम है, और फाउंडेशन 72B मॉडल से छोटा है। बड़े भाषा मॉडल (एलएलएम) पुराने संस्करणों ने डीपसेक-वी 3 को बेहतर बनाया, और 32 बी मॉडल को Google और मिस्ट्रल के समान आकार के सिस्टम को बेहतर बनाने के लिए कहा जाता है।

इसकी विशेषताओं में आकर, Qwen 2.5-VL-32B-Instruct में एक समायोजित आउटपुट शैली है जो अधिक विस्तृत और बेहतर रूप से तैयार प्रतिक्रियाएं प्रदान करती है। शोधकर्ताओं ने दावा किया कि प्रतिक्रियाएं मानव वरीयताओं के साथ निकटता से जुड़ी हुई हैं। गणितीय तर्क क्षमता में भी सुधार किया गया है, और एआई मॉडल अधिक जटिल समस्याओं को हल कर सकता है।

छवि समझ क्षमता और तर्क-केंद्रित विश्लेषण की सटीकता, छवि पार्सिंग, सामग्री मान्यता और दृश्य तर्क कटौती सहित, भी सुधार किया गया है।

QWEN 2.5-VL-32B-INSTRUCT
फोटो क्रेडिट: क्यूवेन

आंतरिक परीक्षण के आधार पर, Qwen 2.5-VL-32B का दावा किया जाता है कि उन्होंने MMMU, MMMU-PRO, और Mathvista बेंचमार्क पर मिस्ट्रल-स्मॉल -3.1-24b और Google के Gemma-3-27b जैसे तुलनीय मॉडल की क्षमताओं को पार कर लिया है। दिलचस्प बात यह है कि एलएलएम को यह भी दावा किया गया था कि एमएम-एमटी-बेंच पर बहुत बड़े क्यूवेन 2-वीएल -72 बी मॉडल से बेहतर प्रदर्शन किया गया था।

क्यूवेन टीम ने कहा कि नवीनतम मॉडल सीधे एक दृश्य एजेंट के रूप में खेल सकता है जो तर्क और प्रत्यक्ष उपकरण कर सकता है। यह स्वाभाविक रूप से कंप्यूटर के उपयोग और फोन के उपयोग में सक्षम है। यह इनपुट के रूप में एक घंटे से अधिक की अवधि के साथ पाठ, चित्र और वीडियो स्वीकार करता है। यह JSON और संरचित आउटपुट का भी समर्थन करता है।

बेसलाइन आर्किटेक्चर और प्रशिक्षण पुराने Qwen 2.5 मॉडल के समान ही बने हुए हैं, हालांकि, शोधकर्ताओं ने एक गतिशील एफपीएस नमूनाकरण को लागू किया ताकि मॉडल को अलग -अलग नमूनाकरण दरों पर वीडियो को समझने में सक्षम बनाया जा सके। एक और वृद्धि भी इसे एक वीडियो में विशिष्ट क्षणों को टेम्पोरल अनुक्रम और गति की समझ प्राप्त करके विशिष्ट क्षणों को इंगित करने देती है।

Qwen 2.5-VL-32B-Instruct GitHub और इसके गले लगने वाले चेहरे पर डाउनलोड करने के लिए उपलब्ध है प्रविष्टि। मॉडल Apache 2.0 लाइसेंस के साथ आता है, जो अकादमिक और वाणिज्यिक दोनों उपयोग की अनुमति देता है।

Source link