एन्थ्रोपिक शोधकर्ता यह समझने में बड़ी सफलता बनाते हैं कि एआई मॉडल कैसे सोचता है
एन्थ्रोपिक शोधकर्ताओं ने गुरुवार को दो नए कागजात साझा किए, कार्यप्रणाली और निष्कर्षों को साझा करते हुए कि एक कृत्रिम बुद्धिमत्ता (एआई) मॉडल कैसे सोचता है। सैन फ्रांसिस्को स्थित एआई फर्म ने एक बड़ी भाषा मॉडल (एलएलएम) की निर्णय लेने की प्रक्रिया की निगरानी के लिए तकनीक विकसित की, यह समझने के लिए कि दूसरे पर एक विशेष प्रतिक्रिया और संरचना को क्या प्रेरित करता है। कंपनी ने इस बात पर प्रकाश डाला कि एआई मॉडल का यह विशेष क्षेत्र एक ब्लैक बॉक्स बना हुआ है, क्योंकि यहां तक कि मॉडल विकसित करने वाले वैज्ञानिक भी पूरी तरह से यह नहीं समझते हैं कि एआई आउटपुट उत्पन्न करने के लिए वैचारिक और तार्किक कनेक्शन कैसे बनाता है। एंथ्रोपिक रिसर्च ने प्रकाश डाला कि एक एआई कैसे सोचता है एक न्यूज़ रूम में डाककंपनी ने हाल ही में किए गए एक अध्ययन से “एक बड़े भाषा मॉडल के विचारों का पता लगाने” पर विवरण पोस्ट किया। चैटबॉट्स और एआई मॉडल के निर्माण के बावजूद, वैज्ञानिक और डेवलपर्स इलेक्ट्रिकल सर्किट को नियंत्रित नहीं करते हैं, एक सिस्टम एक आउटपुट का उत्पादन करने के लिए बनाता है। इस “ब्लैक बॉक्स” को हल करने के लिए, एन्थ्रोपिक शोधकर्ताओं ने दो पत्र प्रकाशित किए। पहला सर्किट ट्रेसिंग कार्यप्रणाली का उपयोग करके क्लाउड 3.5 हाइकू द्वारा उपयोग किए जाने वाले आंतरिक तंत्र की जांच करता है, और दूसरा कागज़ भाषा मॉडल में कम्प्यूटेशनल ग्राफ़ को प्रकट करने के लिए उपयोग की जाने वाली तकनीकों के बारे में है। शोधकर्ताओं ने कुछ प्रश्नों को क्लाउड की “सोच” भाषा, पाठ उत्पन्न करने की विधि, और इसके तर्क पैटर्न को शामिल करने के लिए उत्तर खोजने के उद्देश्य से किया। एंथ्रोपिक ने कहा, “यह जानते हुए कि क्लाउड जैसे मॉडल कैसे सोचते हैं, हमें उनकी क्षमताओं की बेहतर समझ रखने की अनुमति मिलेगी, साथ ही साथ हमें यह सुनिश्चित करने में मदद मिलेगी कि वे वही कर रहे हैं जो हम उनका इरादा रखते हैं।” कागज में साझा की…
Read moreअलीबाबा क्यूवेन 2.5 ओमनी एआई मॉडल के साथ वास्तविक समय भाषण पीढ़ी जारी की गई
अलीबाबा की क्यूवेन टीम ने बुधवार को क्यूवेन 2.5 परिवार में एक नया आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया। क्यूवेन 2.5 ओमनी को डब किया गया, यह एक फ्लैगशिप-टियर एंड-टू-एंड मल्टीमॉडल मॉडल है। कंपनी का दावा है कि यह वास्तविक समय के पाठ और प्राकृतिक भाषण प्रतिक्रियाओं को उत्पन्न करते हुए, पाठ, चित्र, ऑडियो और वीडियो सहित कई इनपुट को संसाधित कर सकता है। यह कहा जाता है कि इसके विविध कौशल सेट के कारण लागत प्रभावी एआई एजेंटों की इमारत और तैनाती को सक्षम करने के लिए। अलीबाबा ने क्यूवेन 2.5 ओमनी एआई मॉडल के लिए एक नया “थिंकर-टॉकर” आर्किटेक्चर भी नियुक्त किया है। Qwen 2.5 OMNI AI मॉडल जारी किया में एक ब्लॉग भेजाक्यूवेन टीम ने नए Qwen 2.5 OMNI AI मॉडल को विस्तृत किया, जो सात बिलियन-पैरामीटर सिस्टम है। इस omnimodal मॉडल की सबसे उल्लेखनीय क्षमता वास्तविक समय भाषण पीढ़ी और वीडियो चैट क्षमता है, जो बड़े भाषा मॉडल (LLM) को प्रश्नों का उत्तर देने और उपयोगकर्ताओं के साथ मौखिक रूप से एक मानवीय तरीके से बातचीत करने की अनुमति देगा। अब तक, यह क्षमता केवल Google और Openai के मॉडल के साथ उपलब्ध है, जो बंद-स्रोत हैं। दूसरी ओर, अलीबाबा ने प्रौद्योगिकी को खोल दिया है। सुविधाओं के लिए आ रहा है, यह पाठ, चित्र, ऑडियो और वीडियो को इनपुट के साथ -साथ आउटपुट के रूप में स्वीकार करता है। मॉडल वास्तविक समय की आवाज इंटरैक्शन और वीडियो चैट में भी सक्षम है। क्यूवेन टीम ने यह भी कहा कि मॉडल प्राकृतिक तरीके से भाषण की वास्तविक समय की स्ट्रीमिंग भी प्रदान करेगा। इसके अतिरिक्त, यह अंत-से-अंत भाषण निर्देश में बढ़ाया प्रदर्शन के साथ आने का दावा किया जाता है। क्यूवेन टीम ने इस बात पर प्रकाश डाला कि ओमनी मॉडल एक उपन्यास “थिंकर-टॉकर” आर्किटेक्चर पर बनाया गया है। विचारक घटक मस्तिष्क की तरह कार्य करता है और यह तौर -तरीकों में इनपुट को संसाधित करने और समझने और पाठ आउटपुट उत्पन्न करने के लिए जिम्मेदार…
Read moreअलीबाबा क्यूवेन 2.5 विज़न लैंग्वेज मॉडल एक छोटे आकार में जारी, एजेंटिक क्षमताओं को पैक करता है
अलीबाबा की क्यूवेन टीम ने सोमवार को क्यूवेन 2.5 परिवार के लिए एक और आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया। डब किए गए Qwen 2.5-VL-32B निर्देश, AI मॉडल बेहतर प्रदर्शन और अनुकूलन के साथ आता है। यह 32 बिलियन मापदंडों के साथ एक दृष्टि भाषा मॉडल है, और Qwen 2.5 परिवार में तीन अरब, सात अरब और 72 बिलियन पैरामीटर आकार मॉडल में शामिल होता है। टीम द्वारा सभी पिछले मॉडल की तरह, यह एक खुला-स्रोत एआई मॉडल भी है जो एक अनुमेय लाइसेंस के तहत उपलब्ध है। अलीबाबा Qwen 2.5-VL-32B AI मॉडल जारी करता है में एक ब्लॉग भेजाक्यूवेन टीम ने कंपनी के नवीनतम विजन लैंग्वेज मॉडल (वीएलएम) को विस्तृत किया। यह Qwen 2.5 3B और 7B मॉडल की तुलना में अधिक सक्षम है, और फाउंडेशन 72B मॉडल से छोटा है। बड़े भाषा मॉडल (एलएलएम) पुराने संस्करणों ने डीपसेक-वी 3 को बेहतर बनाया, और 32 बी मॉडल को Google और मिस्ट्रल के समान आकार के सिस्टम को बेहतर बनाने के लिए कहा जाता है। इसकी विशेषताओं में आकर, Qwen 2.5-VL-32B-Instruct में एक समायोजित आउटपुट शैली है जो अधिक विस्तृत और बेहतर रूप से तैयार प्रतिक्रियाएं प्रदान करती है। शोधकर्ताओं ने दावा किया कि प्रतिक्रियाएं मानव वरीयताओं के साथ निकटता से जुड़ी हुई हैं। गणितीय तर्क क्षमता में भी सुधार किया गया है, और एआई मॉडल अधिक जटिल समस्याओं को हल कर सकता है। छवि समझ क्षमता और तर्क-केंद्रित विश्लेषण की सटीकता, छवि पार्सिंग, सामग्री मान्यता और दृश्य तर्क कटौती सहित, भी सुधार किया गया है। QWEN 2.5-VL-32B-INSTRUCTफोटो क्रेडिट: क्यूवेन आंतरिक परीक्षण के आधार पर, Qwen 2.5-VL-32B का दावा किया जाता है कि उन्होंने MMMU, MMMU-PRO, और Mathvista बेंचमार्क पर मिस्ट्रल-स्मॉल -3.1-24b और Google के Gemma-3-27b जैसे तुलनीय मॉडल की क्षमताओं को पार कर लिया है। दिलचस्प बात यह है कि एलएलएम को यह भी दावा किया गया था कि एमएम-एमटी-बेंच पर बहुत बड़े क्यूवेन 2-वीएल -72 बी मॉडल से बेहतर प्रदर्शन किया गया था। क्यूवेन टीम ने कहा कि…
Read moreGoogle का मिथुन 2.5 प्रो एआई मॉडल लॉन्च किया गया; TOPS लीडरबोर्ड, Openai के O3 मिनी को आउटपरफॉर्म करता है
Google ने बुधवार को अपने मिथुन 2.0 सीरीज़ आर्टिफिशियल इंटेलिजेंस (AI) मॉडल के उत्तराधिकारी को जारी किया। डब किए गए मिथुन 2.5 प्रो प्रायोगिक, यह पहला मॉडल है जिसे कंपनी 2.5 परिवार से जारी कर रही है। माउंटेन व्यू-आधारित टेक दिग्गज का कहना है कि मॉडलों की इस श्रृंखला में “सोच” या तर्क क्षमता सीधे मॉडल में निर्मित होगी। यह कई क्षेत्रों में Openai के O3-Mini को बेहतर बनाने के लिए कार्यों की एक विस्तृत श्रृंखला में बेहतर बेंचमार्क स्कोर को नोट करता है। Google ने उपयोगकर्ताओं के लिए मॉडल को रोल आउट करना शुरू कर दिया है। मिथुन 2.5 प्रो एआई मॉडल जारी किया में एक ब्लॉग भेजाGoogle DeepMind के CTO, कोरे Kavukcuoglu ने नए बड़े भाषा मॉडल (LLM) को विस्तृत किया। मिथुन 2.5 श्रृंखला का सबसे उल्लेखनीय पहलू यह है कि अब कोई भी “सोच” मॉडल नहीं होगा जैसे कि मिथुन 2.0 फ्लैश सोच। टेक दिग्गज ने एक बढ़ाया बेस मॉडल का उपयोग किया, जिसे सभी मिथुन 2.5 एआई मॉडल के लिए अंतर्निहित तर्क क्षमता प्रदान करने के लिए प्रशिक्षण के बाद में सुधार किया गया था। इसलिए, Google एक विशेष “थिंकिंग” लेबल को एक मॉडल के लिए निरूपित नहीं करेगा क्योंकि उनमें से सभी उन्नत तर्क और चेन-ऑफ-थॉट (COT) दिखा सकते हैं। मिथुन 2.5 प्रो बेंचमार्कफोटो क्रेडिट: Google Google ने मॉडल विनिर्देशों के बारे में बहुत कुछ नहीं बताया, इसलिए इसके डेटासेट, प्रशिक्षण विधियों और वास्तुकला के बारे में विवरण ज्ञात नहीं है। हालांकि, टेक दिग्गज ने आंतरिक परीक्षण के आधार पर अपने बेंचमार्क स्कोर साझा किए। कहा जाता है कि मानवता की अंतिम परीक्षा में 18.8 प्रतिशत स्कोर किया गया था, एक डेटासेट ने एआई मॉडल के लिए सबसे कठिन बेंचमार्किंग परीक्षण माना। मिथुन 2.5 प्रो का स्कोर टूल के उपयोग के बिना मॉडल के बीच अत्याधुनिक (SOTA) था। GEMINI 2.5 Pro का दावा है कि Openai के O3-Mini, Grok 3 Beta, Claude 3.7 Sonnet, और DeepSeek R1 जैसे कई बेंचमार्क, जैसे कि GPQA डायमंड, Aime…
Read moreNVIDIA कॉस्मॉस-ट्रांसफर 1 एआई मॉडल जारी करता है जिसका उपयोग रोबोट के लिए सिमुलेशन-आधारित प्रशिक्षण के लिए किया जा सकता है
NVIDIA ने पिछले सप्ताह एक नया आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किया जिसका उपयोग सिमुलेशन पर रोबोट को प्रशिक्षित करने के लिए किया जा सकता है। डबेड कॉस्मॉस-ट्रांसफर 1, नई वर्ल्ड जनरेशन लार्ज लैंग्वेज मॉडल (एलएलएम) का उद्देश्य एआई-संचालित रोबोटिक्स हार्डवेयर है, जिसे भौतिक एआई के रूप में भी जाना जाता है। कंपनी ने एक अनुमेय लाइसेंस के साथ खुले स्रोत में मॉडल जारी किया है, और इच्छुक व्यक्ति इसे लोकप्रिय ऑनलाइन रिपॉजिटरी से डाउनलोड कर सकते हैं। सांता क्लारा-आधारित टेक दिग्गज ने इस बात पर प्रकाश डाला कि नवीनतम एआई मॉडल का मुख्य लाभ यह है कि उपयोगकर्ताओं को उत्पन्न सिमुलेशन पर दानेदार नियंत्रण होगा। Nvidia रोबोट को प्रशिक्षित करने के लिए AI मॉडल जारी करता है सिमुलेशन-आधारित रोबोटिक्स प्रशिक्षण ने हाल के दिनों में जेनेरिक एआई तकनीक में उन्नति के कारण हवा प्राप्त की है। रोबोटिक्स की यह विशिष्ट शाखा हार्डवेयर से संबंधित है जो अपने मस्तिष्क के लिए एआई का उपयोग करती है। अनिवार्य रूप से, प्रशिक्षण विधि विभिन्न वास्तविक दुनिया के परिदृश्यों में मशीन के मस्तिष्क को प्रशिक्षित करती है ताकि यह कार्यों की एक विस्तृत श्रृंखला को संभाल सके। यह कारखानों में वर्तमान रोबोटों की तुलना में एक बड़ा सुधार है जो एक ही कार्य को पूरा करने के लिए डिज़ाइन किए गए हैं। NVIDIA का COSMOS-Transfer1 कंपनी के Cosmos ट्रांसफर वर्ल्ड फाउंडेशन मॉडल (WFMS) का हिस्सा है, जो कि संरचित वीडियो इनपुट जैसे कि विभाजन मानचित्र, गहराई के नक्शे, LiDAR स्कैन और अधिक से अधिक फोटोरियल वीडियो आउटपुट उत्पन्न करने के लिए। इन आउटपुट को फिर भौतिक एआई को प्रशिक्षित करने के लिए सिमुलेशन ग्राउंड के रूप में इस्तेमाल किया जा सकता है। में एक कागज़ Arxiv जर्नल में प्रकाशित, कंपनी ने कहा कि यह मॉडल अपने पूर्ववर्तियों की तुलना में अधिक अनुकूलन प्रदान करता है। यह स्थानिक स्थान के आधार पर विभिन्न सशर्त आदानों के वजन को अलग -अलग बनाता है। अनिवार्य रूप से, यह डेवलपर्स को अत्यधिक नियंत्रणीय विश्व पीढ़ी उत्पन्न करने…
Read moreबेहतर पाठ और मल्टीमॉडल प्रदर्शन के साथ मिस्ट्रल स्मॉल 3.1 एआई मॉडल जारी किया गया
मिस्ट्रल स्मॉल 3.1 आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल सोमवार को जारी किया गया था। पेरिस स्थित एआई फर्म ने नवीनतम मॉडल के दो ओपन-सोर्स वेरिएंट पेश किए-चैट और निर्देश। मॉडल मिस्ट्रल स्मॉल 3 के उत्तराधिकारी के रूप में आता है, और बेहतर पाठ प्रदर्शन और मल्टीमॉडल समझ में सुधार करता है। कंपनी का दावा है कि यह कई बेंचमार्क पर Google के Gemma 3 और Openai के GPT-4O मिनी जैसे तुलनीय मॉडल को बेहतर बनाता है। नए पेश किए गए मॉडल के प्रमुख लाभों में से एक इसका तेजी से प्रतिक्रिया समय है। मिस्ट्रल स्मॉल 3.1 एआई मॉडल जारी किया गया एक न्यूज़ रूम में डाकएआई फर्म ने नए मॉडल को विस्तृत किया। Mistral Small 3.1 1,28,000 टोकन तक की विस्तारित संदर्भ विंडो के साथ आता है और कहा जाता है कि प्रति सेकंड 150 टोकन की अनुमान गति प्रदान करने के लिए। यह अनिवार्य रूप से एआई मॉडल का प्रतिक्रिया समय काफी तेज है। यह चैट और निर्देश के दो वेरिएंट में आता है। पूर्व एक विशिष्ट चैटबॉट के रूप में काम करता है जबकि बाद वाला उपयोगकर्ता निर्देशों का पालन करने के लिए ठीक-ठाक है और किसी विशिष्ट उद्देश्य के साथ एक एप्लिकेशन का निर्माण करते समय उपयोगी होता है। मिस्ट्रल स्मॉल 3.1 बेंचमार्कफोटो क्रेडिट: मिस्ट्रल इसकी पिछली रिलीज़ के समान, मिस्ट्रल स्मॉल 3.1 सार्वजनिक डोमेन में उपलब्ध है। खुले वजन को फर्म के गले लगने वाले चेहरे से डाउनलोड किया जा सकता है प्रविष्टि। AI मॉडल Apache 2.0 लाइसेंस के साथ आता है जो अकादमिक और अनुसंधान उपयोग की अनुमति देता है लेकिन वाणिज्यिक उपयोग के मामलों को मना करता है। मिस्ट्रल ने कहा कि बड़े भाषा मॉडल (एलएलएम) को एक एकल एनवीडिया आरटीएक्स 4090 जीपीयू या 32 जीबी रैम के साथ मैक डिवाइस पर चलने के लिए अनुकूलित किया गया है। इसका मतलब है कि एआई मॉडल चलाने के लिए एक महंगे सेटअप के बिना उत्साही भी इसे डाउनलोड और एक्सेस कर सकते हैं। मॉडल कम-विलंबता फ़ंक्शन…
Read moreBaidu ने एर्नी 4.5 फाउंडेशन मॉडल और एर्नी एक्स 1 रीजनिंग मॉडल को मल्टीमॉडल क्षमताओं के साथ रिलीज़ किया
Baidu ने रविवार को दो नए आर्टिफिशियल इंटेलिजेंस (AI) मॉडल जारी किए। सबसे पहले, एर्नी 4.5 एक फाउंडेशन मॉडल है जो कंपनी की पिछली पीढ़ी को सफल करता है, जबकि दूसरी, एर्नी एक्स 1, एक तर्क-केंद्रित मॉडल है। उत्तरार्द्ध एक “गहरी सोच” एआई मॉडल में चीनी टेक दिग्गज का पहला प्रयास भी है, और Baidu का दावा है कि बड़ी भाषा मॉडल (LLM) डीपसेक-आर 1 के साथ ऑन-पर प्रदर्शन करता है। मॉडल रिलीज़ के साथ -साथ, Baidu ने अपने AI प्लेटफॉर्म Ernie Bot को भी एक्सेस करने के लिए मुक्त कर दिया, और उपयोगकर्ताओं को चैटबॉट का उपयोग करने के लिए प्रीमियम का भुगतान नहीं करना होगा। Baidu ने नए Ernie AI मॉडल जारी किए में एक प्रेस विज्ञप्तिचीनी टेक दिग्गज ने दो नए एआई मॉडल जारी करने की घोषणा की। वर्तमान में, केवल एर्नी 4.5 मॉडल जारी किया गया है और चैटबॉट प्लेटफॉर्म के माध्यम से सुलभ है, और कंपनी ने कहा कि एर्नी एक्स 1 जल्द ही उपलब्ध होगा। आमतौर पर, एआई कंपनियां एक शोध पेपर और रिपॉजिटरी (यदि वे ओपन-सोर्स हैं) के साथ नए मॉडल पेश करती हैं, हालांकि, Baidu ने या तो जारी नहीं किया। कंपनी ने इस बात पर प्रकाश डाला कि एर्नी 4.5 को 30 जून को सोर्स कोड और मॉडल वेट के साथ डेवलपर्स के लिए उपलब्ध कराया जाएगा। तर्क मॉडल के बारे में ऐसी कोई घोषणा नहीं की गई है। एर्नी 4.5 एक मूल रूप से मल्टीमॉडल एआई मॉडल है जिसमें पाठ, छवियों, ऑडियो और वीडियो को समझने की क्षमता है। इसका मतलब है कि उपयोगकर्ता इन फ़ाइल स्वरूपों को इनपुट के रूप में अपलोड कर सकते हैं और उनके बारे में एआई प्रश्न पूछ सकते हैं। कंपनी ने यह भी कहा कि मॉडल की भाषा क्षमताओं को बढ़ाया जा रहा है और यह अब संवादी संदेशों के साथ-साथ तर्क और स्मृति-आधारित प्रश्नों का बेहतर जवाब दे सकता है। एर्नी 4.5 प्रासंगिक सामग्री जैसे कि मेम, व्यंग्य और अन्य भी समझ सकते…
Read moreमूनवाल्ली ने फिल्म निर्माण के लिए एआई वीडियो मॉडल मारे लॉन्च किया, कहा गया कि लाइसेंस प्राप्त डेटा पर पूरी तरह से प्रशिक्षित है
लॉस एंजिल्स स्थित आर्टिफिशियल इंटेलिजेंस (एआई) स्टार्टअप मूनवली ने बुधवार को एक नया जेनेक्टिव वीडियो मॉडल लॉन्च किया। Étienne Jules Marey, जिन्हें सिनेमैटोग्राफी का अग्रणी माना जाता था, के बाद डब किया गया था, AI वीडियो मॉडल को केवल नैतिक रूप से खट्टे लाइसेंस प्राप्त डेटा पर प्रशिक्षित किया जाता है। स्टार्टअप का कहना है कि प्रशिक्षण डेटा खरीद की प्रकृति इसे एक कानूनी जोखिम-मुक्त तकनीक बनाती है जो मूवी स्टूडियो और फिल्म निर्माताओं को अपनाने की अधिक संभावना है। मूनवले ने यह भी कहा कि एआई मॉडल को टेक्स्ट-टू-वीडियो जनरेशन टूल के रूप में पेश करने के बजाय, यह एक ऐसा सॉफ्टवेयर बनाना चाहता था जिसे स्टूडियो के वर्कफ़्लो में एकीकृत किया जा सके। मूनवाल्ली ने मारे एआई वीडियो मॉडल लॉन्च किया में एक डाक एक्स पर (पूर्व में ट्विटर के रूप में जाना जाता था), आधिकारिक हैंडल ऑफ मूनवाल्ली ने मारे वीडियो जनरेशन मॉडल के लॉन्च की घोषणा की। इसे “स्वच्छ” मॉडल कहते हुए, कंपनी ने कहा कि मारी फिल्म निर्माताओं के लिए बनाया गया है और इसे विशेष रूप से लाइसेंस प्राप्त डेटा पर प्रशिक्षित किया जाता है। कंपनी ने एक में समझाया ब्लॉग भेजा यह वीडियो जनरेशन मॉडल के विशिष्ट “टेक्स्ट इन, वीडियो आउट” दृष्टिकोण से दूर जाना चाहता था, जो फिल्म निर्माताओं को बहुत कम नियंत्रण प्रदान करता है और उस प्रक्रिया के अनुसार काम नहीं करता है जो वे आदी हैं। “रचनात्मक प्रक्रिया प्रकृति द्वारा पुनरावृत्ति है; आप कभी भी एक बार में चीजें नहीं बनाते हैं। और लोग इन मॉडलों का उपयोग अपने कौशल को बढ़ाने के लिए करना चाहते हैं, न कि उन्हें एक तैयार उत्पाद सौंपने के लिए, ”पोस्ट ने कहा। एक TechCrunch के अनुसार प्रतिवेदनमारी एक विशिष्ट वीडियो जनरेशन मॉडल नहीं है, और इसके बजाय फिल्म निर्माताओं को आउटपुट पर अधिक नियंत्रण प्राप्त करने में सक्षम करने के लिए कई उपकरण प्रदान करता है। यह कथित तौर पर गति नियंत्रण और कैमरा प्रकार जैसे अनुकूलन विकल्प प्रदान करता है। AI…
Read moreGoogle डीपमाइंड ने मिथुन रोबोटिक्स एआई मॉडल का अनावरण किया जो वास्तविक दुनिया में रोबोट को नियंत्रित कर सकते हैं
Google डीपमाइंड ने गुरुवार को दो नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल का अनावरण किया, जो रोबोट को नियंत्रित कर सकता है ताकि उन्हें वास्तविक दुनिया के वातावरण में कई प्रकार के कार्यों का प्रदर्शन किया जा सके। डब किए गए मिथुन रोबोटिक्स और मिथुन रोबोटिक्स-एर (सन्निहित तर्क), ये उन्नत दृष्टि भाषा मॉडल हैं जो स्थानिक खुफिया और प्रदर्शन करने वाले कार्यों को प्रदर्शित करने में सक्षम हैं। माउंटेन व्यू-आधारित टेक दिग्गज ने यह भी खुलासा किया कि यह जेमिनी 2.0-संचालित ह्यूमनॉइड रोबोट बनाने के लिए Apptronik के साथ साझेदारी कर रहा है। कंपनी भी इन मॉडलों का परीक्षण कर रही है ताकि उन्हें और मूल्यांकन किया जा सके, और समझा जा सके कि उन्हें बेहतर कैसे बनाया जाए। Google डीपमाइंड ने मिथुन रोबोटिक्स एआई मॉडल का अनावरण किया में एक ब्लॉग भेजाडीपमाइंड ने रोबोट के लिए नए एआई मॉडल को विस्तृत किया। Google DeepMind में वरिष्ठ निदेशक और रोबोटिक्स के प्रमुख कैरोलिना परदा ने कहा कि एआई के लिए भौतिक दुनिया में लोगों के लिए सहायक होने के लिए, उन्हें “सन्निहित” तर्क का प्रदर्शन करना होगा – भौतिक दुनिया को बातचीत करने और समझने और कार्यों को पूरा करने के लिए कार्रवाई करने की क्षमता। दो एआई मॉडल में से पहला मिथुन रोबोटिक्स, एक उन्नत दृष्टि-भाषा-एक्शन (वीएलए) मॉडल है जिसे मिथुन 2.0 मॉडल का उपयोग करके बनाया गया था। इसमें “भौतिक क्रियाओं” का एक नया आउटपुट मोडेलिटी है जो मॉडल को सीधे रोबोट को नियंत्रित करने की अनुमति देता है। दीपमाइंड ने इस बात पर प्रकाश डाला कि भौतिक दुनिया में उपयोगी होने के लिए, रोबोटिक्स के लिए एआई मॉडल को तीन प्रमुख क्षमताओं – सामान्यता, अन्तरक्रियाशीलता और निपुणता की आवश्यकता होती है। सामान्यता एक मॉडल की विभिन्न स्थितियों के अनुकूल होने की क्षमता को संदर्भित करती है। मिथुन रोबोटिक्स “नई वस्तुओं, विविध निर्देशों और नए वातावरणों से निपटने में निपुण है,” कंपनी ने दावा किया। आंतरिक परीक्षण के आधार पर, शोधकर्ताओं ने एआई मॉडल को एक व्यापक सामान्यीकरण बेंचमार्क…
Read more