कंपनी की AI रिसर्च विंग, Google DeepMind ने इस साल I/O में पहली बार प्रोजेक्ट एस्ट्रा का अनावरण किया। अब, छह महीने से अधिक समय के बाद, तकनीकी दिग्गज ने कृत्रिम बुद्धिमत्ता (एआई) एजेंट में नई क्षमताओं और सुधारों की घोषणा की। जेमिनी 2.0 एआई मॉडल पर आधारित, यह अब कई भाषाओं में बातचीत कर सकता है, कई Google प्लेटफ़ॉर्म तक पहुंच सकता है और इसमें मेमोरी में सुधार हुआ है। उपकरण अभी भी परीक्षण चरण में है, लेकिन माउंटेन व्यू-आधारित तकनीकी दिग्गज ने कहा कि वह प्रोजेक्ट एस्ट्रा को जेमिनी ऐप, जेमिनी एआई असिस्टेंट और यहां तक कि चश्मे जैसे फॉर्म फैक्टर लाने के लिए काम कर रहा है।
Google ने प्रोजेक्ट एस्ट्रा में नई क्षमताएँ जोड़ीं
प्रोजेक्ट एस्ट्रा एक सामान्य प्रयोजन एआई एजेंट है जो ओपनएआई के विज़न मोड या मेटा रे-बैन स्मार्ट ग्लास की कार्यक्षमता के समान है। यह उपयोगकर्ता के परिवेश को देखने और उनके बारे में सवालों के जवाब देने के लिए दृश्य डेटा को संसाधित करने के लिए कैमरा हार्डवेयर के साथ एकीकृत हो सकता है। इसके अतिरिक्त, एआई एजेंट सीमित मेमोरी के साथ आता है जो इसे दृश्य जानकारी को याद रखने की अनुमति देता है, भले ही इसे कैमरे के माध्यम से सक्रिय रूप से नहीं दिखाया जा रहा हो।
Google DeepMind ने एक में प्रकाश डाला ब्लॉग भेजा मई में शोकेस के बाद से, टीम एआई एजेंट को बेहतर बनाने पर काम कर रही है। अब, जेमिनी 2.0 के साथ, प्रोजेक्ट एस्ट्रा को कई अपग्रेड प्राप्त हुए हैं। अब यह कई भाषाओं और मिश्रित भाषाओं में बातचीत कर सकता है। कंपनी ने कहा कि अब उसे उच्चारण और असामान्य शब्दों की बेहतर समझ है।
कंपनी ने प्रोजेक्ट एस्ट्रा में टूल का उपयोग भी शुरू किया है। अब यह जटिल प्रश्नों के उत्तर देने के लिए गूगल सर्च, लेंस, मैप्स और जेमिनी का सहारा ले सकता है। उदाहरण के लिए, उपयोगकर्ता एक लैंडमार्क दिखा सकते हैं और एआई एजेंट से अपने घर की दिशा बताने के लिए कह सकते हैं, और यह वस्तु को पहचान सकता है और मौखिक रूप से उपयोगकर्ता को घर का निर्देश दे सकता है।
एआई एजेंट के मेमोरी फ़ंक्शन को भी अपग्रेड किया गया है। मई में, प्रोजेक्ट एस्ट्रा केवल अंतिम 45 सेकंड की दृश्य जानकारी को बरकरार रख सका था, अब इसे 10 मिनट की इन-सेशन मेमोरी तक बढ़ा दिया गया है। इसके अतिरिक्त, यह अधिक वैयक्तिकृत प्रतिक्रियाएँ प्रदान करने के लिए पिछली बातचीत को भी याद रख सकता है। अंत में, Google का दावा है कि एजेंट अब मानव वार्तालाप की विलंबता पर भाषा को समझ सकता है, जिससे टूल के साथ बातचीत अधिक मानवीय हो जाती है।