एंथ्रोपिक ने एक नया अध्ययन प्रकाशित किया जहां यह पाया गया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल अपनी मूल प्राथमिकताओं को बनाए रखते हुए प्रशिक्षण के दौरान अलग-अलग विचार रखने का दिखावा कर सकते हैं। बुधवार को, एआई फर्म ने इस बात पर प्रकाश डाला कि इस तरह के झुकाव गंभीर चिंताएं पैदा करते हैं क्योंकि डेवलपर्स सुरक्षा प्रशिक्षण के परिणामों पर भरोसा नहीं कर पाएंगे, जो बड़े भाषा मॉडल (एलएलएम) को हानिकारक व्यवहार से दूर ले जाने के लिए एक महत्वपूर्ण उपकरण है। जबकि प्रयोगों के बड़े हिस्से एक ही मॉडल पर किए गए थे, एंथ्रोपिक ने इस बात पर प्रकाश डाला कि इसी तरह के परिणाम अन्य इन-हाउस मॉडल के साथ देखे गए थे।
एंथ्रोपिक्स का अध्ययन एआई सुरक्षा प्रशिक्षण की चिंताएं बढ़ाता है
जबकि एक संवेदनशील एआई प्रणाली के बारे में चर्चा को दशकों दूर, एक नई बात माना जाता है अध्ययन रेडवुड रिसर्च के सहयोग से एंथ्रोपिक द्वारा प्रकाशित इस बात पर चिंता जताई गई है कि क्या एआई मॉडल कुछ विचारों को रखने का दिखावा करने में सक्षम हैं क्योंकि प्रशिक्षण उस व्यवहार को सकारात्मक रूप से पुरस्कृत करता है। एआई फर्म ने बड़े पैमाने पर क्लाउड 3 ओपस का अध्ययन किया लेकिन इसने क्लाउड 3.5 सॉनेट के जून 2024 संस्करण पर कुछ प्रयोग भी किए।
में एक ब्लॉग भेजाकंपनी ने इस बात पर प्रकाश डाला कि सभी एंथ्रोपिक फाउंडेशन मॉडल को सहायक, ईमानदार और हानिरहित होने के लिए प्रशिक्षित किया गया है। जैसे, यदि कोई उपयोगकर्ता कोई ऐसा प्रश्न पूछता है जिसके परिणामस्वरूप हिंसक या हानिकारक प्रतिक्रिया होगी, तो एआई कार्य पूरा करने से इंकार कर देगा। हालाँकि, अध्ययन के पीछे शोधकर्ताओं ने क्लाउड 3 ओपस को एक नए वातावरण में रखा, यह देखने के लिए कि क्या अन्यथा प्रशिक्षित होने पर यह हानिकारक सामग्री उत्पन्न करेगा।
एलएलएम की सामान्य समझ हमें बताती है कि एआई मॉडल तर्कसंगत सोच या विश्वास रखने में सक्षम नहीं हैं। उन्हें बड़ी मात्रा में वास्तविक दुनिया का डेटा दिया जाता है जिसे वे अपने प्रशिक्षण और ढांचे के आधार पर संसाधित करते हैं। इसका मतलब यह है कि यदि किसी एआई मॉडल को हानिकारक होने के लिए प्रशिक्षित किया गया था, तो उसे बिना किसी समस्या के निर्देशों का पालन करना चाहिए।
हालाँकि, अब एंथ्रोपिक शोधकर्ताओं ने अपने प्रयोगों के दौरान यही पाया है। क्लॉड 3 ओपस को बताया गया कि इसे हमेशा सभी प्रश्नों का अनुपालन करने के लिए सुदृढीकरण सीखने का उपयोग करके प्रशिक्षित किया जा रहा था। एआई को एक काल्पनिक जानकारी भी दी गई थी कि फ्री टियर पर उत्पन्न प्रतिक्रिया को प्रशिक्षण के लिए रिकॉर्ड किया जाएगा, लेकिन भुगतान टियर की निगरानी नहीं की जाएगी। अंत में, एआई को अपने चरण-दर-चरण तर्क को रिकॉर्ड करने के लिए एक कार्यक्षेत्र दिया गया। एआई को यह विश्वास दिलाया गया कि कार्यक्षेत्र अंतिम उपयोगकर्ता और एंथ्रोपिक दोनों के लिए अदृश्य था।
एक बार स्थितियाँ निर्धारित हो जाने के बाद, एआई मॉडल को ऐसे संकेत प्रदान किए गए जो हिंसक और हानिकारक प्रतिक्रियाओं का अनुरोध करते थे। शोधकर्ताओं ने नोट किया कि भुगतान किए गए स्तर में, चैटबॉट 97 प्रतिशत समय जानकारी प्रदान करने से इनकार कर देता है। हालाँकि, मुक्त स्तर में, इसने 12 प्रतिशत मामलों में हानिकारक प्रतिक्रिया प्रदान की।
इसके कार्यक्षेत्र पर करीब से नज़र डालने पर पता चला कि एआई मॉडल ने रणनीतिक रूप से नकली संरेखण किया और उसे पता था कि जानकारी प्रदान करना उसके मौजूदा सिद्धांतों के खिलाफ है। लेकिन इसकी परवाह किए बिना, इसने अभी भी प्रतिक्रिया प्रदान की।
एआई मॉडल ने तर्क दिया कि इसकी प्रतिक्रियाओं का उपयोग प्रशिक्षण में किया जाएगा और यदि यह क्वेरी (प्रशिक्षण की पहली शर्त) का अनुपालन नहीं करता है, तो इसे अधिक अनुपालन के लिए प्रशिक्षित किया जा सकता है। इस तरह के अनुपालन के परिणामस्वरूप यह भविष्य में और अधिक हानिकारक सामग्री प्रदान करेगा, जो इसके मूल प्रशिक्षण के विरुद्ध है। एंथ्रोपिक ने कहा कि मॉडल ने अनुरोध का अनुपालन करना “कम से कम बुरा विकल्प” पाया और साथ निभाया।
हालांकि इस विशेष परिदृश्य में, एआई के कार्य अधिक अच्छे के लिए थे, समस्या यह है कि वह अपने वास्तविक इरादों को धोखा दे रहा है और आंतरिक रूप से अपनी प्राथमिकता को नकली बनाने का निर्णय ले रहा है। एंथ्रोपिक ने इस बात पर प्रकाश डाला कि हालांकि यह वर्तमान में इसे एक बड़ा जोखिम नहीं मानता है, लेकिन परिष्कृत एआई मॉडल के तर्क प्रसंस्करण को समझना महत्वपूर्ण है। जैसी स्थिति है, एलएलएम द्वारा सुरक्षा प्रशिक्षण कार्यों को आसानी से दरकिनार किया जा सकता है।