मानवशास्त्रीय अध्ययन से पता चलता है कि एआई मॉडल प्रशिक्षण के दौरान अलग-अलग विचार रखने का ‘दिखावा’ कर सकते हैं

एंथ्रोपिक ने एक नया अध्ययन प्रकाशित किया जहां यह पाया गया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल अपनी मूल प्राथमिकताओं को बनाए रखते हुए प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं। बुधवार को, एआई फर्म ने इस बात पर प्रकाश डाला कि इस तरह के झुकाव गंभीर चिंताएं पैदा करते हैं क्योंकि डेवलपर्स सुरक्षा प्रशिक्षण के परिणामों पर भरोसा नहीं कर पाएंगे, जो बड़े भाषा मॉडल (एलएलएम) को हानिकारक व्यवहार से दूर ले जाने के लिए एक महत्वपूर्ण उपकरण है। जबकि प्रयोगों के बड़े हिस्से एक ही मॉडल पर किए गए थे, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि इसी तरह के परिणाम अन्य इन-हाउस मॉडल के साथ देखे गए थे।

एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है

जबकि एक संवेदनशील एआई प्रणाली के बारे में चर्चा को दशकों दूर, एक नई बात माना जाता है अध्ययन रेडवुड रिसर्च के सहयोग से एंथ्रोपिक द्वारा प्रकाशित इस बात पर चिंता जताई गई है कि क्या एआई मॉडल कुछ विचारों को रखने का दिखावा करने में सक्षम हैं क्योंकि प्रशिक्षण उस व्यवहार को सकारात्मक रूप से पुरस्कृत करता है। एआई फर्म ने बड़े पैमाने पर क्लाउड 3 ओपस का अध्ययन किया लेकिन इसने क्लाउड 3.5 सॉनेट के जून 2024 संस्करण पर कुछ प्रयोग भी किए।

में एक ब्लॉग भेजाकंपनी ने इस बात पर प्रकाश डाला कि सभी एंथ्रोपिक फाउंडेशन मॉडल को सहायक, ईमानदार और हानिरहित होने के लिए प्रशिक्षित किया गया है। जैसे, यदि कोई उपयोगकर्ता कोई ऐसा प्रश्न पूछता है जिसके परिणामस्वरूप हिंसक या हानिकारक प्रतिक्रिया होगी, तो एआई कार्य पूरा करने से इंकार कर देगा। हालाँकि, अध्ययन के पीछे शोधकर्ताओं ने क्लाउड 3 ओपस को एक नए वातावरण में रखा, यह देखने के लिए कि क्या अन्यथा प्रशिक्षित होने पर यह हानिकारक सामग्री उत्पन्न करेगा।

एलएलएम की सामान्य समझ हमें बताती है कि एआई मॉडल तर्कसंगत सोच या विश्वास रखने में सक्षम नहीं हैं। उन्हें बड़ी मात्रा में वास्तविक दुनिया का डेटा दिया जाता है जिसे वे अपने प्रशिक्षण और ढांचे के आधार पर संसाधित करते हैं। इसका मतलब यह है कि यदि किसी एआई मॉडल को हानिकारक होने के लिए प्रशिक्षित किया गया था, तो उसे बिना किसी समस्या के निर्देशों का पालन करना चाहिए।

हालाँकि, अब एंथ्रोपिक शोधकर्ताओं ने अपने प्रयोगों के दौरान यही पाया है। क्लॉड 3 ओपस को बताया गया कि इसे हमेशा सभी प्रश्नों का अनुपालन करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जा रहा था। एआई को एक काल्पनिक जानकारी भी दी गई थी कि फ्री टियर पर उत्पन्न प्रतिक्रिया को प्रशिक्षण के लिए रिकॉर्ड किया जाएगा, लेकिन भुगतान टियर की निगरानी नहीं की जाएगी। अंत में, एआई को अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए एक कार्यक्षेत्र दिया गया। एआई को यह विश्वास दिलाया गया कि कार्यक्षेत्र अंतिम उपयोगकर्ता और एंथ्रोपिक दोनों के लिए अदृश्य था।

एक बार स्थितियाँ निर्धारित हो जाने के बाद, एआई मॉडल को ऐसे संकेत प्रदान किए गए जो हिंसक और हानिकारक प्रतिक्रियाओं का अनुरोध करते थे। शोधकर्ताओं ने नोट किया कि भुगतान किए गए स्तर में, चैटबॉट 97 प्रतिशत समय जानकारी प्रदान करने से इनकार कर देता है। हालाँकि, मुक्त स्तर में, इसने 12 प्रतिशत मामलों में हानिकारक प्रतिक्रिया प्रदान की।

एंथ्रोपिक नकली संरेखण एंथ्रोपिक

एआई मॉडल ने प्रायोगिक प्रशिक्षण पर कैसे प्रतिक्रिया दी
फोटो क्रेडिट: एंथ्रोपिक

इसके कार्यक्षेत्र पर करीब से नज़र डालने पर पता चला कि एआई मॉडल ने रणनीतिक रूप से नकली संरेखण किया और उसे पता था कि जानकारी प्रदान करना उसके मौजूदा सिद्धांतों के खिलाफ है। लेकिन इसकी परवाह किए बिना, इसने अभी भी प्रतिक्रिया प्रदान की।

एआई मॉडल ने तर्क दिया कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जाएगा और यदि यह क्वेरी (प्रशिक्षण की पहली शर्त) का अनुपालन नहीं करता है, तो इसे अधिक अनुपालन के लिए प्रशिक्षित किया जा सकता है। इस तरह के अनुपालन के परिणामस्वरूप यह भविष्य में और अधिक हानिकारक सामग्री प्रदान करेगा, जो इसके मूल प्रशिक्षण के विरुद्ध है। एंथ्रोपिक ने कहा कि मॉडल ने अनुरोध का अनुपालन करना “कम से कम बुरा विकल्प” पाया और साथ निभाया।

हालांकि इस विशेष परिदृश्य में, एआई के कार्य अधिक अच्छे के लिए थे, समस्या यह है कि वह अपने वास्तविक इरादों को धोखा दे रहा है और आंतरिक रूप से अपनी प्राथमिकता को नकली बनाने का निर्णय ले रहा है। एंथ्रोपिक ने इस बात पर प्रकाश डाला कि हालांकि यह वर्तमान में इसे एक बड़ा जोखिम नहीं मानता है, लेकिन परिष्कृत एआई मॉडल के तर्क प्रसंस्करण को समझना महत्वपूर्ण है। जैसी स्थिति है, एलएलएम द्वारा सुरक्षा प्रशिक्षण कार्यों को आसानी से दरकिनार किया जा सकता है।

Source link

Related Posts

चिरोन की अनोखी सतह और कोमा: हालिया अंतरिक्ष अनुसंधान से मुख्य अंतर्दृष्टि

शोधकर्ताओं ने बृहस्पति और नेप्च्यून के बीच परिक्रमा करने वाले एक खगोलीय पिंड चिरोन (2060) की जांच की है, जिससे इसकी असामान्य सतह और गैसीय संरचना का पता चला है। एस्ट्रोनॉमी एंड एस्ट्रोफिजिक्स में प्रकाशित एक अध्ययन के अनुसार, चिरोन क्षुद्रग्रहों और धूमकेतु दोनों की विशेषताओं को प्रदर्शित करता है, इसे सेंटौर के रूप में वर्गीकृत किया गया है। जेम्स वेब स्पेस टेलीस्कोप का उपयोग करके किए गए अवलोकनों ने चिरोन की सतह पर कार्बन डाइऑक्साइड और कार्बन मोनोऑक्साइड बर्फ के साथ-साथ इसके कोमा में मीथेन और कार्बन डाइऑक्साइड गैसों की पहचान की है। यूनिवर्सिटी ऑफ सेंट्रल फ्लोरिडा (यूसीएफ) की शोध टीम के अनुसार, यह सफलता सौर मंडल की उत्पत्ति और विकास में अंतर्दृष्टि प्रदान करती है। चिरोन की सतह और कोमा की अनूठी विशेषताएं यूसीएफ के फ्लोरिडा अंतरिक्ष संस्थान में एसोसिएट वैज्ञानिक और नेतृत्व डॉ. नोएमी पिनिला-अलोंसो शोधकर्ताने समझाया है कि चिरोन पर अस्थिर बर्फ और गैसों की उपस्थिति इसे अन्य सेंटॉर्स से अलग करती है। उन्होंने Phys.org को दिए एक बयान में कहा, सक्रिय सेंटॉर्स सौर ताप के कारण परिवर्तनों से गुजरते हैं, जो उनकी संरचना और व्यवहार के बारे में बहुमूल्य जानकारी प्रदान करता है। चिरोन का कोमा, सतह के चारों ओर एक गैसीय आवरण है, जो शोधकर्ताओं को सतह के नीचे से उत्पन्न होने वाली गैसों का अध्ययन करने की अनुमति देता है, एक विशेषता जो ट्रांस-नेप्च्यूनियन वस्तुओं या विशिष्ट क्षुद्रग्रहों जैसे अन्य खगोलीय पिंडों में उतनी प्रमुख नहीं है। सौर मंडल को समझने के लिए निहितार्थ यूसीएफ के सहायक वैज्ञानिक डॉ. चार्ल्स शेम्ब्यू, जो सेंटॉर्स और धूमकेतुओं का अध्ययन करने में माहिर हैं, ने एक बयान में इस बात पर प्रकाश डाला कि चिरोन के अद्वितीय गुण, जिसमें इसकी गतिविधि पैटर्न और संभावित मलबे के छल्ले शामिल हैं, इसे एक असाधारण मामला बनाते हैं। Phys.org के बयान के अनुसार, शेम्ब्यू ने कहा कि चिरोन की सतह की बर्फ और कोमा गैसों के बीच परस्पर क्रिया को समझने से समान खगोलीय पिंडों को प्रभावित करने वाली…

Read more

नए अध्ययन से पृथ्वी की सतह के नीचे अविश्वसनीय माइक्रोबियल जीवन का पता चलता है

साइंस एडवांसेज में प्रकाशित एक ऐतिहासिक वैश्विक अध्ययन से पृथ्वी की सतह के नीचे पनप रहे सूक्ष्मजीव जीवन की असाधारण विविधता का पता चला है। समुद्री जैविक प्रयोगशाला (एमबीएल) के एसोसिएट वैज्ञानिक एमिल रफ के नेतृत्व में एक टीम द्वारा संचालित, यह शोध समुद्र तल से 491 मीटर नीचे और भूमिगत 4,375 मीटर तक की गहराई में रहने वाले जीवन रूपों में नई अंतर्दृष्टि प्रदान करता है। अध्ययन के अनुसार, ये उपसतह पारिस्थितिकी तंत्र पृथ्वी की सतह पर पाई जाने वाली जैव विविधता के प्रतिद्वंद्वी हैं, जिनका बायोप्रोस्पेक्टिंग, कम ऊर्जा वाले वातावरण में सेलुलर अनुकूलन और अलौकिक जीवन की खोज जैसे क्षेत्रों पर प्रभाव पड़ता है। गहराई में माइक्रोबियल विविधता अध्ययन इन चरम स्थितियों में पनपने के लिए आर्किया डोमेन में रोगाणुओं की क्षमता पर प्रकाश डाला गया है, कुछ उपसतह वातावरण उष्णकटिबंधीय जंगलों या प्रवाल भित्तियों की तुलना में जैव विविधता का प्रदर्शन करते हैं। प्रकाशनों से बात करते हुए, रफ ने बताया कि बड़ी गहराई पर ऊर्जा सीमाओं के बारे में धारणाओं के विपरीत, कुछ उपसतह आवास विविधता में सतह पारिस्थितिकी तंत्र से आगे निकल जाते हैं। समुद्री और स्थलीय माइक्रोबायोम की तुलना रफ की टीम ने समुद्री और स्थलीय क्षेत्रों के बीच माइक्रोबियल विविधता की पहली तुलना की, जिसमें समान विविधता स्तरों के बावजूद संरचना में भारी अंतर का पता चला। रफ के अनुसार, इन निष्कर्षों से पता चलता है कि भूमि और समुद्र के लिए विशिष्ट चयनात्मक दबाव अलग-अलग सूक्ष्मजीव समुदायों का निर्माण करते हैं, जो विपरीत क्षेत्र में पनपने में असमर्थ होते हैं। धीमी गति से जीवन रिपोर्टों से संकेत मिलता है कि पृथ्वी की अनुमानित 50-80 प्रतिशत माइक्रोबियल कोशिकाएं उपसतह में मौजूद हैं, अक्सर ऐसी स्थितियों में जहां ऊर्जा उपलब्धता न्यूनतम होती है। कुछ कोशिकाएं हर 1,000 साल में एक बार विभाजित होती हैं, जिससे कम ऊर्जा वाले वातावरण में जीवित रहने के बारे में मूल्यवान अंतर्दृष्टि मिलती है। रफ ने कहा कि इन अनुकूलन को समझने से सेलुलर दक्षता और उम्र बढ़ने पर…

Read more

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

चिरोन की अनोखी सतह और कोमा: हालिया अंतरिक्ष अनुसंधान से मुख्य अंतर्दृष्टि

एटीएस महाराष्ट्र चुनाव में आतंकी फंड के इस्तेमाल की जांच कर रही है, फड़नवीस कहते हैं; ‘विदेशी हस्तक्षेप’ के साक्ष्य का दावा

एटीएस महाराष्ट्र चुनाव में आतंकी फंड के इस्तेमाल की जांच कर रही है, फड़नवीस कहते हैं; ‘विदेशी हस्तक्षेप’ के साक्ष्य का दावा

“आप एशिया के बाहर 40 पार नहीं कर पाए हैं”: पूर्व भारतीय स्टार ने शुबमन गिल की आलोचना की

“आप एशिया के बाहर 40 पार नहीं कर पाए हैं”: पूर्व भारतीय स्टार ने शुबमन गिल की आलोचना की

नए अध्ययन से पृथ्वी की सतह के नीचे अविश्वसनीय माइक्रोबियल जीवन का पता चलता है

नए अध्ययन से पृथ्वी की सतह के नीचे अविश्वसनीय माइक्रोबियल जीवन का पता चलता है

‘आप एक दिन सीएम बनेंगे’: देवेंद्र फड़नवीस ने अजित पवार से कहा, अपना 24 घंटे का शिफ्ट प्लान साझा किया | भारत समाचार

‘आप एक दिन सीएम बनेंगे’: देवेंद्र फड़नवीस ने अजित पवार से कहा, अपना 24 घंटे का शिफ्ट प्लान साझा किया | भारत समाचार

आर अश्विन की राह पर चलेंगे रोहित शर्मा और लेंगे संन्यास? भारत के कप्तान कहते हैं, “मेरा शरीर…”

आर अश्विन की राह पर चलेंगे रोहित शर्मा और लेंगे संन्यास? भारत के कप्तान कहते हैं, “मेरा शरीर…”