
अमेज़ॅन ने मंगलवार को अपने प्रमुख नोवा फैमिली ऑफ मॉडल्स में एक नया आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल पेश किया। अमेज़ॅन नोवा सोनिक को डब किया गया, यह एक वॉयस जनरेशन मॉडल है जो मानव-जैसे भाषण उत्पन्न करने में सक्षम है। हालाँकि, यह एक टेक्स्ट-टू-स्पीच (टीटीएस) टूल नहीं है; इसके बजाय, यह वास्तविक समय में वॉयस इनपुट को संसाधित कर सकता है और इसका जवाब दे सकता है। सिएटल स्थित टेक दिग्गज का कहना है कि डेवलपर्स संवादी एआई चैटबॉट और इसी तरह के उपकरण बनाने के लिए मॉडल का उपयोग कर सकते हैं। विशेष रूप से, अमेज़ॅन नोवा सोनिक एआई मॉडल भी कार्यात्मक कॉलिंग और टूल के उपयोग का समर्थन करता है, जिससे यह एजेंट एप्लिकेशन विकास के साथ -साथ संगत हो जाता है।
अमेज़ॅन नोवा सोनिक एक एपीआई के रूप में उपलब्ध है
में एक ब्लॉग भेजाटेक दिग्गज ने अमेज़ॅन नोवा सोनिक की रिलीज़ की घोषणा की। कंपनी ने कहा कि वॉयस-सक्षम एप्लिकेशन के लिए पारंपरिक दृष्टिकोण कई मॉडलों जैसे कि पाठ मान्यता, भाषण-से-पाठ रूपांतरण, डेटा प्रोसेसिंग और टीटीएस मॉडल जैसे कई मॉडलों के साथ एक जटिल का उपयोग करते हैं। यह अक्सर विलंबता में वृद्धि, और भाषाई संदर्भ को संरक्षित करने में विफलता की ओर जाता है, पोस्ट ने कहा।
अमेज़ॅन ने कहा कि नोवा सोनिक मॉडल के साथ इसका दृष्टिकोण भाषण समझ और भाषण पीढ़ी के घटकों को एकजुट करना था। कहा जाता है कि एआई मॉडल को डेटा को संसाधित करने और वास्तविक समय में भाषण उत्पन्न करने में सक्षम होने के लिए कहा जाता है, जिससे यह बातचीत जैसा अनुभव देता है। यह एकीकृत प्रणाली भी मॉडल को उपयोगकर्ता के इरादे को संदर्भित करने के लिए इनपुट भाषण की गति और समय को बेहतर ढंग से समझने की अनुमति देती है।
इसके अतिरिक्त, एआई मॉडल अलग-अलग बोलने की शैलियों के साथ-साथ अलग-अलग लहजे में अलग-अलग मर्दाना और स्त्री-ध्वनि वाली आवाज़ों को समझ सकता है। यह भी समझ सकता है कि जब कोई उपयोगकर्ता बोलता है, मंबल या रुकता है, तो बोलता है। अमेज़ॅन का कहना है कि मॉडल शोर सेटिंग में भी भाषण दे सकता है।
प्रतिक्रिया पीढ़ी में, कंपनी का दावा है कि मॉडल अधिक अभिव्यंजक और मानव-जैसा हो सकता है, और बातचीत के संदर्भ से मेल खाने के लिए अपनी प्रतिक्रिया शैली को समायोजित कर सकता है। वर्तमान में, AI मॉडल केवल अंग्रेजी भाषा का समर्थन करता है। अमेज़ॅन ने कहा कि अधिक भाषाओं के लिए समर्थन जल्द ही जोड़ा जाएगा। मॉडल ऑडियो के लिए 32,000 टोकन की एक संदर्भ विंडो का समर्थन करता है, एक अतिरिक्त विंडो के साथ लंबी बातचीत को संभालने के लिए। इसकी डिफ़ॉल्ट सत्र सीमा आठ मिनट है।
नोवा सोनिक मॉडल का उपयोग करने के लिए, डेवलपर्स अमेज़ॅन बेडरॉक पर जा सकते हैं और इसे मॉडल एक्सेस विकल्प के तहत पा सकते हैं। इसे एक द्विदिश स्ट्रीमिंग एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई) के माध्यम से भी एक्सेस किया जा सकता है जो ऑडियो इनपुट को संसाधित कर सकता है और आउटपुट उत्पन्न कर सकता है।