एप्पल, एंथ्रोपिक और अन्य एआई फर्मों ने कथित तौर पर हजारों यूट्यूब वीडियो पर एआई मॉडल को प्रशिक्षित किया है
Apple, Anthropic और अन्य प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) फ़र्म ने कथित तौर पर सैकड़ों हज़ारों YouTube वीडियो के डेटा पर AI मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था। कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए प्रूफ न्यूज ने एक अध्ययन किया जाँच पड़ताल यह पता लगाने के लिए कि 1,73,536 YouTube वीडियो से उपशीर्षक डेटा 48,000 से अधिक चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI अनुसंधान प्रयोगशाला EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका उपयोग Apple, Anthropic, Nvidia, Salesforce और अन्य जैसी कंपनियों द्वारा किया गया। उल्लेखनीय रूप से, AI लैब ने एक शोध प्रकाशित किया कागज़ डेटासेट के विवरण पर प्रकाश डालना। EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे। रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग Apple के OpenELM AI मॉडल को प्रशिक्षित करने के लिए किया गया था। Salesforce, Nvidia और Anthropic के AI मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख किया गया है। एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों…
Read more