अलीबाबा की क्वेन अनुसंधान टीम ने पूर्वावलोकन में एक और ओपन-सोर्स कृत्रिम बुद्धिमत्ता (एआई) मॉडल जारी किया है। QVQ-72B नाम दिया गया, यह एक दृष्टि-आधारित तर्क मॉडल है जो छवियों से दृश्य जानकारी का विश्लेषण कर सकता है और उनके पीछे के संदर्भ को समझ सकता है। तकनीकी दिग्गज ने एआई मॉडल के बेंचमार्क स्कोर भी साझा किए हैं और इस बात पर प्रकाश डाला है कि एक विशिष्ट परीक्षण पर, यह ओपनएआई के ओ1 मॉडल से बेहतर प्रदर्शन करने में सक्षम था। विशेष रूप से, अलीबाबा ने हाल ही में कई ओपन-सोर्स एआई मॉडल जारी किए हैं, जिनमें QwQ-32B और मार्को-ओ1 तर्क-केंद्रित बड़े भाषा मॉडल (एलएलएम) शामिल हैं।
अलीबाबा का विज़न-आधारित QVQ-72B AI मॉडल लॉन्च किया गया
आलिंगनशील चेहरे में प्रविष्टिअलीबाबा की क्वेन टीम ने नए ओपन-सोर्स एआई मॉडल के बारे में विस्तार से बताया। इसे एक प्रायोगिक अनुसंधान मॉडल बताते हुए, शोधकर्ताओं ने इस बात पर प्रकाश डाला कि QVQ-72B उन्नत दृश्य तर्क क्षमताओं के साथ आता है। दिलचस्प बात यह है कि ये प्रदर्शन की दो अलग-अलग शाखाएँ हैं, जिन्हें शोधकर्ताओं ने इस मॉडल में संयोजित किया है।
विज़न-आधारित AI मॉडल बहुत सारे हैं। इनमें एक छवि एनकोडर शामिल है और यह उनके पीछे की दृश्य जानकारी और संदर्भ का विश्लेषण कर सकता है। इसी तरह, तर्क-केंद्रित मॉडल जैसे कि o1 और QwQ-32B परीक्षण-समय गणना स्केलिंग क्षमताओं के साथ आते हैं जो उन्हें मॉडल के लिए प्रसंस्करण समय बढ़ाने की अनुमति देते हैं। यह मॉडल को समस्या को सुलझाने, चरण-दर-चरण तरीके से हल करने, आउटपुट का आकलन करने और सत्यापनकर्ता के विरुद्ध इसे सही करने में सक्षम बनाता है।
QVQ-72B के पूर्वावलोकन मॉडल के साथ, अलीबाबा ने इन दो कार्यात्मकताओं को संयोजित किया है। अब यह छवियों से जानकारी का विश्लेषण कर सकता है और तर्क-केंद्रित संरचनाओं का उपयोग करके जटिल प्रश्नों का उत्तर दे सकता है। टीम इस बात पर प्रकाश डालती है कि इसने मॉडल के प्रदर्शन में काफी सुधार किया है।
आंतरिक परीक्षण से प्राप्त निष्कर्षों को साझा करते हुए, शोधकर्ताओं ने दावा किया कि QVQ-72B मैथविस्टा (मिनी) बेंचमार्क में 71.4 प्रतिशत स्कोर करने में सक्षम था, जो कि o1 मॉडल (71.0) से बेहतर प्रदर्शन कर रहा था। मल्टीमॉडल मैसिव मल्टी-टास्क अंडरस्टैंडिंग (एमएमएमयू) बेंचमार्क पर भी इसे 70.3 प्रतिशत स्कोर मिलने की बात कही गई है।
बेहतर प्रदर्शन के बावजूद, कई सीमाएँ हैं, जैसा कि अधिकांश प्रायोगिक मॉडलों के मामले में है। क्वेन टीम ने कहा कि एआई मॉडल कभी-कभी विभिन्न भाषाओं को मिलाता है या अप्रत्याशित रूप से उनके बीच स्विच करता है। मॉडल में कोड-स्विचिंग मुद्दा भी प्रमुख है। इसके अतिरिक्त, मॉडल के पुनरावर्ती तर्क चक्रों में फंसने का खतरा रहता है, जिससे अंतिम आउटपुट प्रभावित होता है।