हगिंग फेस ने पिछले सप्ताह एक नया केस अध्ययन साझा किया जिसमें दिखाया गया कि कैसे छोटे भाषा मॉडल (एसएलएम) बड़े मॉडल से बेहतर प्रदर्शन कर सकते हैं। पोस्ट में, प्लेटफ़ॉर्म के शोधकर्ताओं ने दावा किया कि कृत्रिम बुद्धिमत्ता (एआई) मॉडल के प्रशिक्षण समय को बढ़ाने के बजाय, परीक्षण-समय की गणना पर ध्यान केंद्रित करने से एआई मॉडल के लिए बेहतर परिणाम दिख सकते हैं। उत्तरार्द्ध एक अनुमान रणनीति है जो एआई मॉडल को किसी समस्या को हल करने पर अधिक समय बिताने की अनुमति देती है और आत्म-शोधन और एक सत्यापनकर्ता के खिलाफ खोज जैसे विभिन्न दृष्टिकोण प्रदान करती है जो उनकी दक्षता में सुधार कर सकती है।
टेस्ट-टाइम कंप्यूट स्केलिंग कैसे काम करती है
में एक डाकहगिंग फेस ने इस बात पर प्रकाश डाला कि एआई मॉडल की क्षमताओं में सुधार के लिए पारंपरिक दृष्टिकोण अक्सर संसाधन-गहन और बेहद महंगा हो सकता है। आमतौर पर, ट्रेन-टाइम कंप्यूट नामक एक तकनीक का उपयोग किया जाता है, जहां प्रीट्रेनिंग डेटा और एल्गोरिदम का उपयोग फाउंडेशन मॉडल द्वारा किसी क्वेरी को तोड़ने और समाधान तक पहुंचने के तरीके को बेहतर बनाने के लिए किया जाता है।
वैकल्पिक रूप से, शोधकर्ताओं ने दावा किया कि टेस्ट-टाइम कंप्यूट स्केलिंग पर ध्यान केंद्रित करना, एक ऐसी तकनीक है जहां एआई मॉडल को किसी समस्या को हल करने में अधिक समय बिताने की अनुमति मिलती है और उन्हें खुद को सही करने की अनुमति मिलती है, जो समान परिणाम दिखा सकता है।
ओपनएआई के ओ1 तर्क-केंद्रित मॉडल के उदाहरण पर प्रकाश डालते हुए, जो परीक्षण-समय गणना का उपयोग करता है, शोधकर्ताओं ने कहा कि यह तकनीक प्रशिक्षण डेटा या प्रीट्रेनिंग विधियों में कोई बदलाव नहीं करने के बावजूद एआई मॉडल को बढ़ी हुई क्षमताओं को प्रदर्शित करने दे सकती है। हालाँकि, एक समस्या थी. चूंकि अधिकांश तर्क मॉडल बंद हैं, इसलिए उपयोग की जा रही रणनीतियों को जानने का कोई तरीका नहीं है।
शोधकर्ताओं ने Google डीपमाइंड और रिवर्स इंजीनियरिंग तकनीकों के एक अध्ययन का उपयोग यह जानने के लिए किया कि एलएलएम डेवलपर्स प्रशिक्षण के बाद के चरण में परीक्षण-समय की गणना को कैसे माप सकते हैं। केस स्टडी के अनुसार, केवल प्रोसेसिंग समय बढ़ाने से जटिल प्रश्नों के आउटपुट में महत्वपूर्ण सुधार नहीं दिखता है।
इसके बजाय, शोधकर्ता एक स्व-शोधन एल्गोरिदम का उपयोग करने की सलाह देते हैं जो एआई मॉडल को बाद के पुनरावृत्तियों में प्रतिक्रियाओं का आकलन करने और संभावित त्रुटियों की पहचान करने और सही करने की अनुमति देता है। इसके अतिरिक्त, एक सत्यापनकर्ता का उपयोग करना जिसके विरुद्ध मॉडल खोज कर सकते हैं, प्रतिक्रियाओं को और बेहतर बना सकता है। ऐसे सत्यापनकर्ता एक सीखा हुआ इनाम मॉडल या हार्ड-कोडित अनुमानी हो सकते हैं।
अधिक उन्नत तकनीकों में सर्वोत्तम-से-एन दृष्टिकोण शामिल होगा जहां एक मॉडल प्रति समस्या कई प्रतिक्रियाएं उत्पन्न करता है और निर्णय लेने के लिए एक अंक प्रदान करता है जो बेहतर अनुकूल होगा। ऐसे दृष्टिकोणों को इनाम मॉडल के साथ जोड़ा जा सकता है। बीम खोज, जो चरण-दर-चरण तर्क और प्रत्येक चरण के लिए अंक निर्दिष्ट करने को प्राथमिकता देती है, शोधकर्ताओं द्वारा उजागर की गई एक और रणनीति है।
उपर्युक्त रणनीतियों का उपयोग करके, हगिंग फेस शोधकर्ता लामा 3बी एसएलएम का उपयोग करने में सक्षम थे और इसे MATH-500 बेंचमार्क पर लामा 70B, एक बहुत बड़े मॉडल से बेहतर प्रदर्शन करने में सक्षम बनाया।