
Openai ने गुरुवार को, एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (API) में नए ऑडियो मॉडल पेश किए, जो सटीकता और विश्वसनीयता में बेहतर प्रदर्शन प्रदान करते हैं। सैन फ्रांसिस्को स्थित एआई फर्म ने स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन और टेक्स्ट-टू-स्पीच (टीटीएस) दोनों कार्यों के लिए तीन नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किए। कंपनी ने दावा किया कि ये मॉडल डेवलपर्स को एजेंटिक वर्कफ़्लोज़ के साथ एप्लिकेशन बनाने में सक्षम करेंगे। यह भी कहा गया है कि एपीआई व्यवसायों को ग्राहक सहायता जैसे संचालन को स्वचालित करने में सक्षम कर सकता है। विशेष रूप से, नए मॉडल कंपनी के GPT-4O और GPT-4O मिनी AI मॉडल पर आधारित हैं।
Openai API में नए ऑडियो मॉडल लाता है
में एक ब्लॉग भेजाएआई फर्म ने नए एपीआई-विशिष्ट एआई मॉडल को विस्तृत किया। कंपनी ने इस बात पर प्रकाश डाला कि पिछले कुछ वर्षों में इसने कई एआई एजेंटों जैसे कि ऑपरेटर, डीप रिसर्च, कंप्यूटर-यूजिंग एजेंटों और अंतर्निहित उपकरणों के साथ एपीआई को जारी किया है। हालांकि, यह कहा गया है कि एजेंटों की वास्तविक क्षमता को केवल तब अनलॉक किया जा सकता है जब वे सहज रूप से प्रदर्शन कर सकते हैं और पाठ से परे माध्यमों में बातचीत कर सकते हैं।
तीन नए ऑडियो मॉडल हैं। GPT-4O-Transcribe और GPT-4O-Mini-Transcribe स्पीच-टू-टेक्स्ट मॉडल हैं और GPT-4O-Mini-TTS है, जैसा कि नाम से पता चलता है, एक TTS मॉडल। Openai का दावा है कि ये मॉडल अपने मौजूदा कानाफूसी मॉडल से बेहतर प्रदर्शन करते हैं जो 2022 में जारी किए गए थे। हालांकि, पुराने मॉडलों के विपरीत, नए खुले-स्रोत नहीं हैं।
GPT-4O-Transcribe में आकर, AI फर्म ने कहा कि यह “वर्ड एरर रेट” (WER) प्रदर्शन में सुधार करता है, जो कि भाषण (Fleurs) बेंचमार्क के सार्वभौमिक अभ्यावेदन के कुछ-शॉट सीखने के मूल्यांकन पर प्रदर्शन करता है जो 100 भाषाओं में बहुभाषी भाषण पर AI मॉडल का परीक्षण करता है। Openai ने कहा कि सुधार लक्षित प्रशिक्षण तकनीकों जैसे कि सुदृढीकरण सीखने (RL) और उच्च गुणवत्ता वाले ऑडियो डेटासेट के साथ व्यापक मिडट्रेनिंग का परिणाम था।
ये स्पीच-टू-टेक्स्ट मॉडल ऑडियो को चुनौतीपूर्ण परिदृश्यों जैसे कि भारी लहजे, शोर वातावरण और अलग-अलग भाषण गति जैसे चुनौतीपूर्ण परिदृश्यों में कैप्चर कर सकते हैं।
GPT-4O-MINI-TTS मॉडल भी महत्वपूर्ण सुधारों के साथ आता है। एआई फर्म का दावा है कि मॉडल अनुकूलन योग्य विभक्तियों, अंतरंगता और भावनात्मक अभिव्यक्ति के साथ बात कर सकते हैं। यह डेवलपर्स को उन अनुप्रयोगों का निर्माण करने में सक्षम करेगा जिनका उपयोग ग्राहक सेवा और रचनात्मक कहानी सहित कई प्रकार के कार्यों के लिए किया जा सकता है। विशेष रूप से, मॉडल केवल कृत्रिम और पूर्व निर्धारित आवाज़ प्रदान करता है।
Openai का API मूल्य निर्धारण पेज इस बात पर प्रकाश डाला गया कि GPT-4O- आधारित ऑडियो मॉडल में $ 40 (लगभग 3,440 रुपये) प्रति मिलियन इनपुट टोकन और $ 80 (लगभग 6,880 रुपये) प्रति मिलियन आउटपुट टोकन खर्च होंगे। दूसरी ओर, GPT-4O मिनी-आधारित ऑडियो मॉडल $ 10 (लगभग 860 रुपये) प्रति मिलियन इनपुट टोकन और $ 20 (लगभग 1,720 रुपये) प्रति मिलियन आउटपुट टोकन की दर से शुल्क लिया जाएगा।
सभी ऑडियो मॉडल अब एपीआई के माध्यम से डेवलपर्स के लिए उपलब्ध हैं। Openai उपयोगकर्ताओं को वॉयस एजेंट बनाने में मदद करने के लिए अपने एजेंट्स सॉफ्टवेयर डेवलपमेंट किट (SDK) के साथ एक एकीकरण जारी कर रहा है।