
Apple, Anthropic और अन्य प्रमुख आर्टिफिशियल इंटेलिजेंस (AI) फ़र्म ने कथित तौर पर सैकड़ों हज़ारों YouTube वीडियो के डेटा पर AI मॉडल को प्रशिक्षित किया है। एक नई रिपोर्ट में दावा किया गया है कि कई AI कंपनियों ने Pile नामक सार्वजनिक रूप से उपलब्ध डेटासेट का इस्तेमाल किया, जिसमें बिना किसी वीडियो इमेजरी के वीडियो के सबटाइटल का सादा टेक्स्ट शामिल था। यह डेटा MrBeast, Marques Brownlee और PewDiePie जैसे लोकप्रिय YouTube क्रिएटर्स के साथ-साथ कैरीमिनाटी, BB ki Vines और आशीष चंचलानी जैसे भारतीय YouTube क्रिएटर्स से एकत्र किया गया था।
कई AI मॉडल कथित तौर पर YouTube वीडियो पर प्रशिक्षित किए गए
प्रूफ न्यूज ने एक अध्ययन किया जाँच पड़ताल यह पता लगाने के लिए कि 1,73,536 YouTube वीडियो से उपशीर्षक डेटा 48,000 से अधिक चैनलों से लिया गया था। रिपोर्ट के अनुसार, गैर-लाभकारी AI अनुसंधान प्रयोगशाला EleutherAI ने इस डेटासेट को क्यूरेट किया। बाद में, इसका उपयोग Apple, Anthropic, Nvidia, Salesforce और अन्य जैसी कंपनियों द्वारा किया गया। उल्लेखनीय रूप से, AI लैब ने एक शोध प्रकाशित किया कागज़ डेटासेट के विवरण पर प्रकाश डालना।
EleutherAI ने 800GB का डेटा रिपॉजिटरी बनाया जिसे Pile नाम दिया गया और इसे उन लोगों के लिए सार्वजनिक रूप से उपलब्ध कराया जो AI मॉडल को प्रशिक्षित करना चाहते थे लेकिन बड़े डेटासेट खरीदने में असमर्थ थे। डेटासेट का अधिकांश हिस्सा सार्वजनिक रूप से उपलब्ध स्रोतों जैसे कि अंग्रेजी विकिपीडिया, ई-बुक्स और अन्य से लिया गया था। हालाँकि, इसमें YouTube सबटाइटल्स नामक डेटासेट में संकलित सभी वीडियो के सबटाइटल भी शामिल थे।
रिपोर्ट में दावा किया गया है कि शोध पत्र के विवरण के आधार पर, पाइल का उपयोग Apple के OpenELM AI मॉडल को प्रशिक्षित करने के लिए किया गया था। Salesforce, Nvidia और Anthropic के AI मॉडल के शोध पत्रों में भी कथित तौर पर डेटासेट के उपयोग का उल्लेख किया गया है।
एंथ्रोपिक के प्रवक्ता जेनिफर मार्टिनेज ने एक बयान में प्रकाशन को बताया, “पाइल में YouTube उपशीर्षकों का एक बहुत छोटा सा उपसमूह शामिल है। YouTube की शर्तें इसके प्लेटफ़ॉर्म के प्रत्यक्ष उपयोग को कवर करती हैं, जो पाइल डेटासेट के उपयोग से अलग है। YouTube की सेवा की शर्तों के संभावित उल्लंघन के बारे में, हमें आपको पाइल लेखकों के पास भेजना होगा।”
उल्लेखनीय है कि यूट्यूब की सेवा की शर्तें निषेध किसी भी व्यक्ति को रोबोट, बॉटनेट या स्क्रैपर जैसे स्वचालित साधनों का उपयोग करके प्लेटफ़ॉर्म पर वीडियो तक पहुँचने से रोका जाएगा। YouTube सबटाइटल स्क्रैपिंग श्रेणी में आएंगे। Google के प्रवक्ता ने एक ईमेल प्रतिक्रिया में Proof News को बताया कि तकनीकी दिग्गज ने “अपमानजनक, अनधिकृत स्क्रैपिंग को रोकने के लिए वर्षों से कार्रवाई की है।” हालाँकि, AI फ़र्म द्वारा डेटा के उपयोग के बारे में कोई टिप्पणी नहीं की गई।
एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर एक पोस्ट में, मार्केस ब्राउनली ने एप्पल पर उन कंपनियों से डेटा प्राप्त करने का आरोप लगाया, जिनमें उनके वीडियो की प्रतिलिपियां शामिल थीं, लेकिन उन्होंने यह भी रेखांकित किया कि यह आईफोन निर्माता की गलती नहीं थी, क्योंकि उन्होंने डेटा एकत्र नहीं किया था।
एप्पल ने अपने AI के लिए डेटा कई कंपनियों से प्राप्त किया है
उनमें से एक ने यूट्यूब वीडियो से ढेर सारा डेटा/ट्रांसक्रिप्ट चुरा लिया, जिसमें मेरा भी वीडियो शामिल था
तकनीकी रूप से एप्पल यहां “गलती” से बचता है क्योंकि वे स्क्रैपिंग करने वाले नहीं हैं
लेकिन यह समस्या लम्बे समय तक जारी रहेगी https://t.co/U93riaeSlY
— मार्क्स ब्राउनली (@MKBHD) 16 जुलाई, 2024
हालांकि यह डेटासेट सार्वजनिक रूप से एकत्र और वितरित किया गया था, लेकिन YouTube जैसे प्लेटफ़ॉर्म पर डेटा स्क्रैपिंग के अन्य उदाहरण भी हो सकते हैं। AI फ़र्मों द्वारा अपने बड़े भाषा मॉडल (LLM) को प्रशिक्षित करने के लिए अधिक डेटा खोजने के लिए संघर्ष करने के साथ, डेटा खरीद कानूनी रूप से इसी तरह के ग्रे क्षेत्रों में प्रवेश करना जारी रख सकती है।