"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ >  > एआई उपकरण प्रशिक्षण डेटा से बाहर चल रहे हैं, लेकिन 6 समाधान हैं

एआई उपकरण प्रशिक्षण डेटा से बाहर चल रहे हैं, लेकिन 6 समाधान हैं

2024-07-29 को प्रकाशित
ब्राउज़ करें:170

आर्टिफिशियल इंटेलिजेंस को प्रशिक्षण डेटा की आवश्यकता होती है, लेकिन वह डेटा सीमित है। तो, हम एआई को और कैसे प्रशिक्षित कर सकते हैं ताकि यह बढ़ता रहे और हमारे लिए उपयोगी हो?

आप सोच सकते हैं कि इंटरनेट और इसका डेटा अक्षय संसाधन हैं, लेकिन एआई टूल्स के पास मेरा डेटा खत्म हो रहा है। अब, इससे पहले कि आप चिंता करें, यह एआई विकास को रोकने वाला नहीं है - एआई सिस्टम को प्रशिक्षित करने के लिए अभी भी बहुत सारा डेटा तैयार है।

1 ऑनलाइन हमेशा अधिक डेटा जोड़ा जाता है

संक्षेप में, एआई अनुसंधान संस्थान एपोक का कहना है कि जिस उच्च गुणवत्ता वाले डेटा पर एआई को प्रशिक्षित किया जा रहा है वह 2026 तक समाप्त हो सकता है।

वहां मुख्य शब्द "हो सकता है" है। हर साल इंटरनेट में जोड़े जाने वाले डेटा की मात्रा बढ़ जाती है, इसलिए 2026 से पहले कुछ बड़ा बदलाव हो सकता है। फिर भी, यह एक उचित अनुमान है - किसी भी तरह से, एआई सिस्टम में किसी बिंदु पर अच्छा डेटा खत्म हो जाएगा।

हालांकि, हमें याद रखना चाहिए कि हर साल लगभग 147 ज़ेटाबाइट डेटा ऑनलाइन जोड़ा जाता है (एक्सप्लोडिंग टॉपिक्स के अनुसार)। केवल एक ज़ेटाबाइट 1,000,000,000,000,000,000,000 बिट डेटा के बराबर है। वास्तविक रूप में (ठीक है, कुछ हद तक वास्तविक), यह 30 बिलियन से अधिक 4के फिल्में (वास्तविक, लेकिन अथाह) है। एआई के लिए यह एक चौंकाने वाली जानकारी है जिसे छानना है।

फिर भी, एआई मानवता द्वारा बनाए जा सकने वाले डेटा की तुलना में तेजी से डेटा का उपभोग करता है...

2 एआई कम गुणवत्ता वाले डेटा को भूल सकता है

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

147 ज़ेटाबाइट डेटा अच्छा नहीं है बेशक, डेटा। जैसा दिखता है उससे कहीं अधिक इसमें बहुत कुछ है। लेकिन यह अनुमान लगाया गया है कि एआई 2050 तक निम्न-गुणवत्ता वाले भाषा डेटा का भी उपयोग कर लेगा।

रॉयटर्स ने बताया कि फोटोबकेट, जो कभी दुनिया की सबसे बड़ी पिक्चर रिपॉजिटरी में से एक थी, एआई प्रशिक्षण फर्मों को अपनी व्यापक लाइब्रेरी का लाइसेंस देने के लिए बातचीत कर रही थी। छवि डेटा में DALL-E और मिडजर्नी जैसे प्रशिक्षित सिस्टम हैं, लेकिन वह भी 2060 तक समाप्त हो सकता है। यहां भी एक बड़ा मुद्दा है: फोटोबकेट में माइस्पेस जैसे 2000 के दशक के सोशल मीडिया प्लेटफार्मों से छवियां शामिल हैं, जिसका अर्थ है कि वे उतने उच्च मानक नहीं हैं वर्तमान फोटोग्राफी. इससे निम्न-गुणवत्ता वाला डेटा प्राप्त होता है.

फोटोबकेट अकेला नहीं है। फरवरी 2024 में, Google ने Reddit के साथ एक सौदा किया, जिससे सर्च दिग्गज को अपने AI प्रशिक्षण में सोशल मीडिया प्लेटफ़ॉर्म के उपयोगकर्ता डेटा का उपयोग करने की अनुमति मिल गई। अन्य सोशल मीडिया प्लेटफ़ॉर्म भी एआई प्रशिक्षण उद्देश्यों के लिए उपयोगकर्ता डेटा प्रदान कर रहे हैं; कुछ लोग इसका उपयोग मेटा के लामा जैसे इन-हाउस एआई मॉडल को प्रशिक्षित करने के लिए कर रहे हैं।

हालाँकि, जबकि कुछ जानकारी निम्न-गुणवत्ता वाले डेटा से प्राप्त की जा सकती है, Microsoft कथित तौर पर AI के लिए चुनिंदा डेटा को "अनसीखा" करने का एक तरीका विकसित कर रहा है। मुख्य रूप से, इसका उपयोग आईपी मुद्दों के लिए किया जाएगा, लेकिन इसका मतलब यह भी हो सकता है कि उपकरण कम-गुणवत्ता वाले डेटा सेट से जो सीखा है उसे भूल सकते हैं।

हम बहुत अधिक चयनात्मक हुए बिना एआई को अधिक डेटा दे सकते हैं; फिर वे एआई प्रणालियाँ चुन सकती हैं कि सीखने के लिए सबसे अधिक फायदेमंद क्या है।

3 वाक् पहचान से वीडियो और पॉडकास्ट डेटा खुलता है

एआई टूल्स को दिए गए डेटा में अब तक बड़े पैमाने पर टेक्स्ट और कुछ हद तक छवियां शामिल हैं। यह निस्संदेह बदल जाएगा, और संभवतः पहले से ही बदल गया है, क्योंकि वाक् पहचान सॉफ़्टवेयर का मतलब होगा कि उपलब्ध वीडियो और पॉडकास्ट की प्रचुरता भी एआई को प्रशिक्षित कर सकती है।

उल्लेखनीय रूप से, ओपनएआई ने 680,000 घंटे के बहुभाषी और मल्टीटास्किंग डेटा का उपयोग करके ओपन-सोर्स, स्वचालित वाक् पहचान (एएसआर) न्यूरल नेटवर्क, व्हिस्पर विकसित किया है। इसके बाद OpenAI ने YouTube वीडियो से दस लाख घंटे से अधिक की जानकारी को अपने बड़े भाषा मॉडल, GPT-4 में फीड किया।

यह अन्य एआई सिस्टम के लिए एक आदर्श टेम्पलेट है, जो कई स्रोतों से वीडियो और ऑडियो को ट्रांसक्राइब करने और उस डेटा को अपने एआई मॉडल के माध्यम से चलाने के लिए वाक् पहचान का उपयोग करते हैं।

स्टेटिस्टा के अनुसार, यूट्यूब पर हर मिनट 500 घंटे से अधिक वीडियो अपलोड किए जाते हैं, यह संख्या 2019 के बाद से काफी लगातार बनी हुई है। यह डेलीमोशन और पॉडबीन जैसे अन्य वीडियो और ऑडियो प्लेटफार्मों का उल्लेख किए बिना है। यदि एआई इस तरह के नए डेटा सेटों पर अपना ध्यान केंद्रित कर सकता है, तो अभी भी बड़ी मात्रा में जानकारी प्राप्त की जानी बाकी है।

4 एआई बड़े पैमाने पर अंग्रेजी भाषा से चिपके हुए हैं

हम व्हिस्पर से इतना ही नहीं सीख सकते हैं। OpenAI ने 117,000 घंटे के गैर-अंग्रेजी ऑडियो डेटा का उपयोग करके मॉडल को प्रशिक्षित किया। यह विशेष रूप से दिलचस्प है क्योंकि कई एआई सिस्टम को मुख्य रूप से अंग्रेजी का उपयोग करके या पश्चिमी लेंस के माध्यम से अन्य संस्कृतियों को देखने के लिए प्रशिक्षित किया गया है।

संक्षेप में, अधिकांश उपकरण उनके रचनाकारों की संस्कृति द्वारा सीमित हैं।

उदाहरण के तौर पर चैटजीपीटी को लें। 2022 में रिलीज़ होने के तुरंत बाद, नॉर्वे के बर्गन विश्वविद्यालय में डिजिटल संस्कृति के प्रोफेसर जिल वॉकर रेटबर्ग ने चैटजीपीटी को आज़माया और निष्कर्ष निकाला:

“चैटजीपीटी नॉर्वेजियन संस्कृति के बारे में ज्यादा नहीं जानता है। या यों कहें कि यह नॉर्वेजियन संस्कृति के बारे में जो कुछ भी जानता है वह संभवतः अंग्रेजी भाषा के स्रोतों से सीखा है... चैटजीपीटी स्पष्ट रूप से अमेरिकी मूल्यों और कानूनों के साथ जुड़ा हुआ है। कई मामलों में ये नॉर्वेजियन और यूरोपीय मूल्यों के करीब हैं, लेकिन संभवतः हमेशा ऐसा नहीं होगा।

एआई, तब विकसित हो सकता है जब अधिक बहुराष्ट्रीय लोग उनके साथ बातचीत करेंगे - या ऐसी प्रणालियों को प्रशिक्षित करने के लिए अधिक विविध भाषाओं और संस्कृतियों का उपयोग किया जाएगा। अभी, कई कृत्रिम बुद्धिमत्ताएँ एक ही पुस्तकालय तक सीमित हो गई हैं; यदि उन्हें दुनिया भर के पुस्तकालयों की चाबियाँ दी जाएँ तो वे आगे बढ़ सकते हैं।

5 प्रकाशन गृह एआई विकसित करने में मदद कर सकते हैं

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

आईपी स्पष्ट रूप से एक बड़ा मुद्दा है, लेकिन कुछ प्रकाशक लाइसेंसिंग समझौते करके एआई विकसित करने में मदद कर सकते हैं। इसका मतलब होगा ऑनलाइन स्रोतों से प्राप्त संभावित निम्न-गुणवत्ता वाली जानकारी के बजाय पुस्तकों से उच्च-गुणवत्ता, यानी विश्वसनीय, डेटा प्रदान करना।

वास्तव में, फेसबुक, इंस्टाग्राम और व्हाट्सएप के मालिक मेटा ने कथित तौर पर "बिग फाइव" प्रकाशन गृहों में से एक साइमन एंड शूस्टर को खरीदने पर विचार किया। मेटा के अपने एआई को प्रशिक्षित करने के लिए फर्म द्वारा प्रकाशित साहित्य का उपयोग करने का विचार था। यह सौदा अंततः विफल हो गया, शायद लेखकों की पूर्व सहमति के बिना आईपी को संसाधित करने वाली कंपनी के नैतिक ग्रे एरिया के कारण।

एक अन्य विकल्प जिस पर स्पष्ट रूप से विचार किया गया वह था नए शीर्षकों पर व्यक्तिगत लाइसेंसिंग अधिकार खरीदना। इससे क्रिएटिव के लिए बड़ी चिंताएं पैदा होनी चाहिए, लेकिन यदि उपयोग करने योग्य डेटा समाप्त हो जाता है तो यह एआई टूल विकसित करने का एक दिलचस्प तरीका होगा।

6 सिंथेटिक डेटा ही भविष्य है

हर अन्य समाधान अभी भी सीमित है, लेकिन एक विकल्प एआई को भविष्य में दूर तक फलता-फूलता देख सकता है: सिंथेटिक डेटा। और इसकी पहले से ही एक बहुत ही वास्तविक संभावना के रूप में जांच की जा रही है।

तो, सिंथेटिक डेटा क्या है? इस अर्थ में, यह AI द्वारा बनाया गया डेटा है; जैसे मनुष्य डेटा बनाते हैं, वैसे ही इस पद्धति में कृत्रिम बुद्धिमत्ता प्रशिक्षण उद्देश्यों के लिए डेटा उत्पन्न करेगी।

वास्तव में, एक एआई एक विश्वसनीय डीपफेक वीडियो बना सकता है। उस डीपफेक वीडियो को एआई में वापस फीड किया जा सकता है ताकि वह मूलतः एक काल्पनिक परिदृश्य से सीख सके। आख़िरकार, मनुष्य के सीखने का एक प्रमुख तरीका यह है: हम अपने आस-पास की दुनिया को समझने के लिए कुछ पढ़ते हैं या देखते हैं।

एआई ने पहले ही सिंथेटिक जानकारी का उपभोग कर लिया है। ऑनलाइन प्रसारित डीपफेक ने गलत सूचना और दुष्प्रचार फैलाया, इसलिए जैसे ही एआई सिस्टम इंटरनेट को स्कैन करता है, यह समझ में आता है कि कुछ नकली सामग्री के अधीन रहे होंगे।

हाँ, इसका एक कपटपूर्ण पक्ष है। यह एआई को नुकसान पहुंचा सकता है या सीमित कर सकता है, उन उपकरणों द्वारा की गई गलतियों को सुदृढ़ और फैला सकता है। कंपनियां बाद की समस्या को खत्म करने के लिए काम कर रही हैं; फिर भी, "एआई एक-दूसरे से सीख रहे हैं और गलतियाँ कर रहे हैं" कई विज्ञान-फाई दुःस्वप्न परिदृश्यों का कथानक बिंदु है।

7

एआई विवादास्पद है। इसके बहुत सारे नुकसान हैं, लेकिन आलोचक इसके फायदों को नजरअंदाज कर देते हैं। उदाहरण के लिए, ऑडिट और सलाहकार नेटवर्क पीडब्ल्यूसी [पीडीएफ] का सुझाव है कि एआई 2030 तक दुनिया की अर्थव्यवस्था में 15.7 ट्रिलियन डॉलर तक का योगदान दे सकता है।

और क्या, एआई का उपयोग पहले से ही पूरी दुनिया में किया जा रहा है। संभवतः आपने आज किसी न किसी रूप में इसका उपयोग किया होगा, शायद आपको इसका एहसास भी नहीं हुआ होगा। अब जिन्न बोतल से बाहर आ गया है, कुंजी निश्चित रूप से इसे विश्वसनीय, गुणवत्ता वाले डेटा पर प्रशिक्षित करना है ताकि हम इसका उचित उपयोग कर सकें।

एआई के अपने सकारात्मक और नकारात्मक पहलू हैं। वहाँ एक संतुलन पाया जाना है.

विज्ञप्ति वक्तव्य यह आलेख यहां पुन: प्रस्तुत किया गया है: https://www.makeuseof.com/ai-running-out-training-data-solutions/ यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए [email protected] से संपर्क करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3