चीनी कृत्रिम बुद्धिमत्ता (एआई) फर्म डीपसीक ने गुरुवार को डीपसीक-वी3 एआई मॉडल जारी किया। नए ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) में बड़े पैमाने पर 671 बिलियन पैरामीटर हैं, जो मेटा लामा 3.1 मॉडल को पीछे छोड़ देता है जिसमें 405 बिलियन पैरामीटर हैं। इसके आकार के बावजूद, शोधकर्ताओं ने दावा किया कि एलएलएम अपने मिश्रण-विशेषज्ञ (एमओई) वास्तुकला के साथ दक्षता की ओर केंद्रित है। इसके कारण, एआई मॉडल केवल प्रदान किए गए कार्य से संबंधित विशिष्ट मापदंडों को सक्रिय कर सकता है और दक्षता और सटीकता सुनिश्चित कर सकता है। विशेष रूप से, यह एक टेक्स्ट-आधारित मॉडल है और इसमें मल्टीमॉडल क्षमताएं नहीं हैं।
डीपसीक-वी3 एआई मॉडल जारी
वर्तमान में ओपन-सोर्स डीपसीक-वी3 एआई मॉडल चल रहा है की मेजबानी गले मिलते चेहरे पर. लिस्टिंग के अनुसार, एलएलएम कुशल अनुमान और लागत प्रभावी प्रशिक्षण के लिए तैयार है। इसके लिए शोधकर्ताओं ने मल्टी-हेड लेटेंट अटेंशन (एमएलए) और डीपसीकएमओई आर्किटेक्चर को अपनाया।
अनिवार्य रूप से, एआई मॉडल केवल उन मापदंडों को सक्रिय करता है जो प्रॉम्प्ट के विषय के लिए प्रासंगिक हैं, इस आकार के विशिष्ट मॉडल की तुलना में तेज़ प्रसंस्करण और उच्च सटीकता सुनिश्चित करते हैं। 14.8 ट्रिलियन टोकन पर पूर्व-प्रशिक्षित, डीपसीक-वी3 उच्च-गुणवत्ता वाली प्रतिक्रियाएं उत्पन्न करने के लिए पर्यवेक्षित फाइन-ट्यूनिंग और सुदृढीकरण सीखने जैसी तकनीकों का उपयोग करता है।
चीनी फर्म ने दावा किया कि इसके आकार के बावजूद, AI मॉडल को Nvidia H800 GPU के साथ 2.788 मिलियन घंटों में पूरी तरह से प्रशिक्षित किया गया था। डीपसीक-वी3 के आर्किटेक्चर में प्रदर्शन में गिरावट को कम करने के लिए लोड-बैलेंसिंग तकनीक भी शामिल है। इस तकनीक का प्रयोग सबसे पहले इसके पूर्ववर्ती पर किया गया था।
प्रदर्शन की बात करें तो, शोधकर्ताओं ने मॉडल के आंतरिक परीक्षण से प्राप्त आंकड़ों को साझा किया और दावा किया कि यह बिग-बेंच हाई-परफॉर्मेंस (बीबीएच), मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग (एमएमएलयू), ह्यूमनएवल, एमएटीएच पर मेटा लामा 3.1 और क्वेन 2.5 मॉडल से बेहतर प्रदर्शन करता है। और कई अन्य बेंचमार्क। हालाँकि, ये वर्तमान में तीसरे पक्ष के शोधकर्ताओं द्वारा सत्यापित नहीं हैं।
डीपसीक-वी3 का एक मुख्य आकर्षण इसका 671 बिलियन मापदंडों का विशाल आकार है। जबकि बड़े मॉडल मौजूद हैं, उदाहरण के लिए, जेमिनी 1.5 प्रो में एक ट्रिलियन पैरामीटर हैं, ओपन सोर्स स्पेस में ऐसा आकार दुर्लभ है। इससे पहले, 405 बिलियन मापदंडों के साथ सबसे बड़ा ओपन-सोर्स एआई मॉडल मेटा का लामा 3.1 था।
वर्तमान में, डीपसीक-वी3 के कोड को व्यक्तिगत और व्यावसायिक उपयोग के लिए एमआईटी लाइसेंस के तहत इसकी हगिंग फेस लिस्टिंग द्वारा एक्सेस किया जा सकता है। इसके अतिरिक्त, AI मॉडल का परीक्षण कंपनी के ऑनलाइन चैटबॉट प्लेटफ़ॉर्म के माध्यम से भी किया जा सकता है। जो लोग एआई मॉडल का उपयोग करके निर्माण करना चाहते हैं वे एपीआई तक भी पहुंच सकते हैं।
नवीनतम तकनीकी समाचारों और समीक्षाओं के लिए गैजेट्स 360 को फ़ॉलो करें एक्स, फेसबुक, WhatsApp, धागे और गूगल समाचार. गैजेट और तकनीक पर नवीनतम वीडियो के लिए, हमारी सदस्यता लें यूट्यूब चैनल. यदि आप शीर्ष प्रभावशाली व्यक्तियों के बारे में सब कुछ जानना चाहते हैं, तो हमारे इन-हाउस को फ़ॉलो करें वह360 कौन है? पर Instagram और यूट्यूब.
क्रिप्टो मूल्य आज: बिटकॉइन की कीमत में गिरावट देखी गई, बाजार-व्यापी सुधार में अधिकांश क्रिप्टोकरेंसी में शामिल हो गया
2024 के सर्वश्रेष्ठ मिड-रेंज स्मार्टफोन: रेडमी नोट 14 प्रो+, वनप्लस नॉर्ड 4, रियलमी 13 प्रो+, और बहुत कुछ