मानवशास्त्रीय अध्ययन से पता चलता है कि एआई मॉडल प्रशिक्षण के दौरान अलग-अलग विचार रखने का ‘दिखावा’ कर सकते हैं

एंथ्रोपिक ने एक नया अध्ययन प्रकाशित किया जहां यह पाया गया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल अपनी मूल प्राथमिकताओं को बनाए रखते हुए प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं। बुधवार को, एआई फर्म ने इस बात पर प्रकाश डाला कि इस तरह के झुकाव गंभीर चिंताएं पैदा करते हैं क्योंकि डेवलपर्स सुरक्षा प्रशिक्षण के परिणामों पर भरोसा नहीं कर पाएंगे, जो बड़े भाषा मॉडल (एलएलएम) को हानिकारक व्यवहार से दूर ले जाने के लिए एक महत्वपूर्ण उपकरण है। जबकि प्रयोगों के बड़े हिस्से एक ही मॉडल पर किए गए थे, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि इसी तरह के परिणाम अन्य इन-हाउस मॉडल के साथ देखे गए थे।

एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है

जबकि एक संवेदनशील एआई प्रणाली के बारे में चर्चा को दशकों दूर, एक नई बात माना जाता है अध्ययन रेडवुड रिसर्च के सहयोग से एंथ्रोपिक द्वारा प्रकाशित इस बात पर चिंता जताई गई है कि क्या एआई मॉडल कुछ विचारों को रखने का दिखावा करने में सक्षम हैं क्योंकि प्रशिक्षण उस व्यवहार को सकारात्मक रूप से पुरस्कृत करता है। एआई फर्म ने बड़े पैमाने पर क्लाउड 3 ओपस का अध्ययन किया लेकिन इसने क्लाउड 3.5 सॉनेट के जून 2024 संस्करण पर कुछ प्रयोग भी किए।

में एक ब्लॉग भेजाकंपनी ने इस बात पर प्रकाश डाला कि सभी एंथ्रोपिक फाउंडेशन मॉडल को सहायक, ईमानदार और हानिरहित होने के लिए प्रशिक्षित किया गया है। जैसे, यदि कोई उपयोगकर्ता कोई ऐसा प्रश्न पूछता है जिसके परिणामस्वरूप हिंसक या हानिकारक प्रतिक्रिया होगी, तो एआई कार्य पूरा करने से इंकार कर देगा। हालाँकि, अध्ययन के पीछे शोधकर्ताओं ने क्लाउड 3 ओपस को एक नए वातावरण में रखा, यह देखने के लिए कि क्या अन्यथा प्रशिक्षित होने पर यह हानिकारक सामग्री उत्पन्न करेगा।

एलएलएम की सामान्य समझ हमें बताती है कि एआई मॉडल तर्कसंगत सोच या विश्वास रखने में सक्षम नहीं हैं। उन्हें बड़ी मात्रा में वास्तविक दुनिया का डेटा दिया जाता है जिसे वे अपने प्रशिक्षण और ढांचे के आधार पर संसाधित करते हैं। इसका मतलब यह है कि यदि किसी एआई मॉडल को हानिकारक होने के लिए प्रशिक्षित किया गया था, तो उसे बिना किसी समस्या के निर्देशों का पालन करना चाहिए।

हालाँकि, अब एंथ्रोपिक शोधकर्ताओं ने अपने प्रयोगों के दौरान यही पाया है। क्लॉड 3 ओपस को बताया गया कि इसे हमेशा सभी प्रश्नों का अनुपालन करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जा रहा था। एआई को एक काल्पनिक जानकारी भी दी गई थी कि फ्री टियर पर उत्पन्न प्रतिक्रिया को प्रशिक्षण के लिए रिकॉर्ड किया जाएगा, लेकिन भुगतान टियर की निगरानी नहीं की जाएगी। अंत में, एआई को अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए एक कार्यक्षेत्र दिया गया। एआई को यह विश्वास दिलाया गया कि कार्यक्षेत्र अंतिम उपयोगकर्ता और एंथ्रोपिक दोनों के लिए अदृश्य था।

एक बार स्थितियाँ निर्धारित हो जाने के बाद, एआई मॉडल को ऐसे संकेत प्रदान किए गए जो हिंसक और हानिकारक प्रतिक्रियाओं का अनुरोध करते थे। शोधकर्ताओं ने नोट किया कि भुगतान किए गए स्तर में, चैटबॉट 97 प्रतिशत समय जानकारी प्रदान करने से इनकार कर देता है। हालाँकि, मुक्त स्तर में, इसने 12 प्रतिशत मामलों में हानिकारक प्रतिक्रिया प्रदान की।

एंथ्रोपिक नकली संरेखण एंथ्रोपिक

एआई मॉडल ने प्रायोगिक प्रशिक्षण पर कैसे प्रतिक्रिया दी
फोटो क्रेडिट: एंथ्रोपिक

इसके कार्यक्षेत्र पर करीब से नज़र डालने पर पता चला कि एआई मॉडल ने रणनीतिक रूप से नकली संरेखण किया और उसे पता था कि जानकारी प्रदान करना उसके मौजूदा सिद्धांतों के खिलाफ है। लेकिन इसकी परवाह किए बिना, इसने अभी भी प्रतिक्रिया प्रदान की।

एआई मॉडल ने तर्क दिया कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जाएगा और यदि यह क्वेरी (प्रशिक्षण की पहली शर्त) का अनुपालन नहीं करता है, तो इसे अधिक अनुपालन के लिए प्रशिक्षित किया जा सकता है। इस तरह के अनुपालन के परिणामस्वरूप यह भविष्य में और अधिक हानिकारक सामग्री प्रदान करेगा, जो इसके मूल प्रशिक्षण के विरुद्ध है। एंथ्रोपिक ने कहा कि मॉडल ने अनुरोध का अनुपालन करना “कम से कम बुरा विकल्प” पाया और साथ निभाया।

हालांकि इस विशेष परिदृश्य में, एआई के कार्य अधिक अच्छे के लिए थे, समस्या यह है कि वह अपने वास्तविक इरादों को धोखा दे रहा है और आंतरिक रूप से अपनी प्राथमिकता को नकली बनाने का निर्णय ले रहा है। एंथ्रोपिक ने इस बात पर प्रकाश डाला कि हालांकि यह वर्तमान में इसे एक बड़ा जोखिम नहीं मानता है, लेकिन परिष्कृत एआई मॉडल के तर्क प्रसंस्करण को समझना महत्वपूर्ण है। जैसी स्थिति है, एलएलएम द्वारा सुरक्षा प्रशिक्षण कार्यों को आसानी से दरकिनार किया जा सकता है।

Source link

Related Posts

नया अध्ययन पीडीएस 70बी के रासायनिक रहस्य के साथ ग्रह निर्माण मॉडल को चुनौती देता है

पीडीएस 70बी पर नया शोध, जो लगभग 400 प्रकाश वर्ष दूर तारामंडल सेंटोरस में स्थित एक एक्सोप्लैनेट है, सुझाव देता है कि ग्रह निर्माण के प्रचलित मॉडल में संशोधन की आवश्यकता हो सकती है। एस्ट्रोफिजिकल जर्नल लेटर्स में प्रकाशित एक अध्ययन के अनुसार, खगोलविदों ने ग्रह के वायुमंडल की रासायनिक संरचना और आसपास के प्रोटोप्लेनेटरी डिस्क के बीच एक बेमेल पाया, जहां से यह उभरा था। इस खोज ने शोधकर्ताओं को स्थापित सिद्धांतों पर पुनर्विचार करने के लिए प्रेरित किया है कि ग्रह गठन के दौरान अपने द्रव्यमान और तत्वों को कैसे जमा करते हैं। पीडीएस 70बी की अनूठी विशेषताएं ग्रह, दो-ग्रह प्रणाली का हिस्सा, बृहस्पति के आकार का लगभग तीन गुना है और सौर मंडल में यूरेनस की स्थिति के बराबर दूरी पर अपने मेजबान तारे की परिक्रमा करता है। शोधकर्ता विश्वास है कि पीडीएस 70बी लगभग 50 लाख वर्षों से सामग्री एकत्र कर रहा है और हो सकता है कि यह अपने गठन के चरण के अंत के करीब हो। हवाई में केक II टेलीस्कोप का उपयोग करते हुए, वैज्ञानिकों ने कार्बन मोनोऑक्साइड और पानी के लिए इसके वातावरण की जांच की, जिससे इसके कार्बन और ऑक्सीजन के स्तर – ग्रहों की उत्पत्ति के प्रमुख संकेतक – के बारे में जानकारी मिली। रासायनिक संरचना में विसंगति निष्कर्षों से पता चला कि ग्रह के वायुमंडल में अपेक्षा से काफी कम कार्बन और ऑक्सीजन है। नॉर्थवेस्टर्न यूनिवर्सिटी के पोस्टडॉक्टरल शोधकर्ता और अध्ययन के प्रमुख लेखक डॉ. चिह-चुन सू के अनुसार, एक बयान में, यह विसंगति ग्रहों के निर्माण के व्यापक रूप से स्वीकृत मॉडल में संभावित अतिसरलीकरण को उजागर करती है। अप्रत्याशित परिणामों के पीछे सिद्धांत शोधकर्ताओं ने दो संभावित स्पष्टीकरण प्रस्तावित किए। एक सुझाव है कि पीडीएस 70बी में बर्फ और धूल जैसे ठोस पदार्थों से अधिकांश कार्बन और ऑक्सीजन शामिल थे, जो ग्रह में एकीकृत होने से पहले वाष्पीकरण के दौरान इन तत्वों को जारी करते थे। नॉर्थवेस्टर्न यूनिवर्सिटी के सहायक प्रोफेसर और अध्ययन के सह-लेखक डॉ. जेसन…

Read more

PS5 प्रो डीप-डाइव ने तकनीकी उन्नयन का विवरण दिया क्योंकि सोनी ने नए AMD सहयोग की घोषणा की

सोनी ने सितंबर में अपने वर्तमान पीढ़ी के कंसोल के उन्नत संस्करण PlayStation 5 Pro का अनावरण किया। एक तकनीकी प्रस्तुति में, PS5 के प्रमुख वास्तुकार, मार्क सेर्नी ने PS5 प्रो की विशेषताओं का एक सिंहावलोकन दिया। सेर्नी ने अब एक नए डीप-डाइव वीडियो में कंसोल के तकनीकी पहलुओं की गहराई से जांच की है, जिसमें पीएस5 प्रो की उन्नत रे ट्रेसिंग सुविधाओं, नई एआई-संचालित अपस्केलिंग तकनीक और बहुत कुछ का विवरण दिया गया है। सेर्नी और सोनी ने बेहतर ग्राफिक्स और गेमप्ले के लिए मशीन लर्निंग-आधारित तकनीक पर एएमडी के साथ सहयोग का भी खुलासा किया है। PS5 प्रो टेक्निकल डीप-डाइव सोनी इंटरएक्टिव एंटरटेनमेंट मुख्यालय में एक सेमिनार में, सेर्नी ने PS5 प्रो पर “बिट्स एंड बाइट्स” भाषण दिया, जिसमें सोनी के नवीनतम कंसोल में शामिल तकनीकी विवरणों पर प्रकाश डाला गया। बुधवार को YouTube पर साझा की गई लगभग 40 मिनट की प्रस्तुति में, सेर्नी ने मध्य-पीढ़ी के प्रो वेरिएंट के लिए अपग्रेड करने के लिए “कसकर केंद्रित” दृष्टिकोण का विवरण दिया, जो महत्वपूर्ण सुधार लाते हुए गेम डेवलपर्स से आवश्यक काम को न्यूनतम रखने को प्राथमिकता देता है। गेमर्स के लिए. सर्नी ने खुलासा किया कि PS5 प्रो के लिए विचार 2020 में शुरू हुआ, उसी वर्ष जब मानक PS5 लॉन्च हुआ। उन्नत कंसोल, जिसे चुनिंदा बाजारों में 7 नवंबर को लॉन्च किया गया था, तीन हेडलाइन प्रदर्शन सुविधाओं के साथ आता है – एक उन्नत जीपीयू, उन्नत रे ट्रेसिंग हार्डवेयर, और एक नई एआई-आधारित अपस्केलिंग तकनीक, जिसे प्लेस्टेशन स्पेक्ट्रल सुपर रेजोल्यूशन (पीएसएसआर) कहा जाता है। सर्नी ने पीएस5 प्रो पर बड़े जीपीयू के तकनीकी पहलुओं के बारे में विस्तार से बताया। बेस PS5 RDNA 2 GPU पर चलता है, जो 18 उप-इकाइयों के साथ आता है, जिन्हें वर्क ग्रुप प्रोसेसर (WGPs) कहा जाता है। दूसरी ओर, PS5 Pro का “हाइब्रिड” RDNA GPU, 30 WGP के साथ आता है। वीडियो में, सेर्नी ने पीएस5 प्रो पर 16.7 टेराफ्लॉप्स “हाइब्रिड” आरडीएनए जीपीयू के पीछे की तकनीक के बारे…

Read more

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

सीन पेटन को दो प्रमुख खिलाड़ियों को खोना पड़ेगा, जबकि जिम हारबॉ को सात चोटों की चुनौतियों का सामना करना पड़ेगा | एनएफएल न्यूज़

सीन पेटन को दो प्रमुख खिलाड़ियों को खोना पड़ेगा, जबकि जिम हारबॉ को सात चोटों की चुनौतियों का सामना करना पड़ेगा | एनएफएल न्यूज़

सीरिया बनाम अफगानिस्तान: किसके हथियार नुकसान से अधिक नुकसान हुआ-रूस या अमेरिका?

सीरिया बनाम अफगानिस्तान: किसके हथियार नुकसान से अधिक नुकसान हुआ-रूस या अमेरिका?

संपत्ति के नुकसान से गुस्साए विजय माल्या ने अपने जन्मदिन पर कई ट्वीट किए, ललित मोदी से दोस्ती कर सांत्वना ली | भारत समाचार

संपत्ति के नुकसान से गुस्साए विजय माल्या ने अपने जन्मदिन पर कई ट्वीट किए, ललित मोदी से दोस्ती कर सांत्वना ली | भारत समाचार

चीफ्स टीम के साथियों के लिए पैट्रिक महोम्स के $100K क्रिसमस उपहार में लक्जरी रोलेक्स घड़ियाँ, लुई वुइटन उपहार, और ऑफेंस लाइन के लिए अन्य भव्य आश्चर्य शामिल हैं | एनएफएल न्यूज़

चीफ्स टीम के साथियों के लिए पैट्रिक महोम्स के $100K क्रिसमस उपहार में लक्जरी रोलेक्स घड़ियाँ, लुई वुइटन उपहार, और ऑफेंस लाइन के लिए अन्य भव्य आश्चर्य शामिल हैं | एनएफएल न्यूज़

अपहरण और जबरन वसूली की साजिश में पॉल पोग्बा का भाई दोषी पाया गया | फुटबॉल समाचार

अपहरण और जबरन वसूली की साजिश में पॉल पोग्बा का भाई दोषी पाया गया | फुटबॉल समाचार

अनीस बज़्मी के बेटे फैज़ान बज़्मी ने लघु फिल्म पोस्टमैन के साथ निर्देशन में अपना डेब्यू किया: ‘संजय मिश्रा पहले डरा रहे थे’ | हिंदी मूवी समाचार

अनीस बज़्मी के बेटे फैज़ान बज़्मी ने लघु फिल्म पोस्टमैन के साथ निर्देशन में अपना डेब्यू किया: ‘संजय मिश्रा पहले डरा रहे थे’ | हिंदी मूवी समाचार