يحتاج الذكاء الاصطناعي إلى بيانات تدريبية، لكن هذه البيانات محدودة. إذًا، كيف يمكننا تدريب الذكاء الاصطناعي بحيث يستمر في النمو ويكون مفيدًا لنا؟
قد تعتقد أن الإنترنت وبياناته هي موارد لا تنضب، ولكن أدوات الذكاء الاصطناعي تنفد من البيانات المتاحة لي. الآن، قبل أن تقلق، لن يوقف ذلك تطور الذكاء الاصطناعي، فهناك الكثير من البيانات التي لا تزال جاهزة لتدريب أنظمة الذكاء الاصطناعي.
باختصار، يقول معهد أبحاث الذكاء الاصطناعي Epoch إن البيانات عالية الجودة التي يتم تدريب الذكاء الاصطناعي عليها قد تنفد بحلول عام 2026.
الكلمة الأساسية هناك هي "يمكن". تزداد كمية البيانات المضافة إلى الإنترنت كل عام، لذلك قد يتغير شيء جذري قبل عام 2026. ومع ذلك، يظل هذا تقديرًا عادلاً، ففي كلتا الحالتين، ستنفد أنظمة الذكاء الاصطناعي من البيانات الجيدة في مرحلة ما.
يجب أن نتذكر، مع ذلك، أنه تتم إضافة حوالي 147 زيتابايت من البيانات عبر الإنترنت كل عام (وفقًا لـ Exploding Topics). زيتابايت واحد فقط يساوي 1,000,000,000,000,000,000,000 بت من البيانات. بالقيمة الحقيقية (حسنًا، حقيقي إلى حد ما)، هذا أكثر من 30 مليار فيلم بدقة 4K (حقيقي، ولكن لا يمكن فهمه). إنها كمية مذهلة من المعلومات التي يتعين على الذكاء الاصطناعي التدقيق فيها.
ومع ذلك، فإن الذكاء الاصطناعي يستهلك البيانات بشكل أسرع مما يمكن للبشرية إنتاجها…
ليست كل 147 زيتابايت من البيانات جيدة البيانات، بطبيعة الحال. هناك الكثير مما تراه العين. ولكن من المقدر أن الذكاء الاصطناعي سوف يستهلك بيانات لغوية منخفضة الجودة بحلول عام 2050 أيضًا.
ذكرت رويترز أن Photobucket، التي كانت في يوم من الأيام واحدة من أكبر مستودعات الصور في العالم، كانت تجري محادثات لترخيص مكتبتها الواسعة لشركات تدريب الذكاء الاصطناعي. تحتوي بيانات الصور على أنظمة مدربة مثل DALL-E وMidjourney، ولكن حتى هذا يمكن أن ينفد بحلول عام 2060. هناك مشكلة أكبر هنا أيضًا: فقد ضم Photobucket صورًا من منصات الوسائط الاجتماعية في العقد الأول من القرن الحادي والعشرين مثل Myspace، مما يعني أنها ليست عالية المستوى مثل التصوير الفوتوغرافي الحالي. وهذا يؤدي إلى بيانات ذات جودة منخفضة.
Photobucket ليس وحده. في فبراير 2024، أبرمت جوجل صفقة مع ريديت، مما يسمح لعملاق البحث باستخدام بيانات مستخدم منصة التواصل الاجتماعي في تدريب الذكاء الاصطناعي. توفر منصات الوسائط الاجتماعية الأخرى أيضًا بيانات المستخدم لأغراض التدريب على الذكاء الاصطناعي؛ يستخدمه البعض لتدريب نماذج الذكاء الاصطناعي الداخلية، مثل Meta's Llama.
ومع ذلك، في حين أنه يمكن استخلاص بعض المعلومات من بيانات منخفضة الجودة، تفيد التقارير أن مايكروسوفت تعمل على تطوير طريقة للذكاء الاصطناعي "لتجاهل" البيانات بشكل انتقائي. في المقام الأول، سيتم استخدام هذا لقضايا الملكية الفكرية، ولكنه قد يعني أيضًا أن الأدوات يمكن أن تنسى ما تعلمته من مجموعات البيانات منخفضة الجودة.يمكننا تغذية الذكاء الاصطناعي بمزيد من البيانات دون أن نكون انتقائيين للغاية؛ يمكن لأنظمة الذكاء الاصطناعي هذه بعد ذلك انتقاء واختيار ما هو أكثر فائدة للتعلم منه.
3 التعرف على الكلام يفتح بيانات الفيديو والبودكاست
والجدير بالذكر أن OpenAI طورت الشبكة العصبية مفتوحة المصدر للتعرف التلقائي على الكلام (ASR)، Whisper، باستخدام 680.000 ساعة من البيانات متعددة اللغات ومتعددة المهام. قامت OpenAI بعد ذلك بتغذية أكثر من مليون ساعة من المعلومات من مقاطع فيديو YouTube إلى نموذجها اللغوي الكبير، GPT-4.
يعد هذا نموذجًا مثاليًا لأنظمة الذكاء الاصطناعي الأخرى، التي تستخدم التعرف على الكلام لنسخ مقاطع الفيديو والصوت من مصادر عديدة وتشغيل تلك البيانات من خلال نماذج الذكاء الاصطناعي الخاصة بها.
وفقًا لـ Statista، يتم تحميل أكثر من 500 ساعة من الفيديو على YouTube كل دقيقة، وهو رقم ظل ثابتًا إلى حد ما منذ عام 2019. هذا دون ذكر منصات الفيديو والصوت الأخرى مثل Dailymotion وPodbean. إذا تمكن الذكاء الاصطناعي من تحويل انتباهه إلى مجموعات بيانات جديدة مثل هذه، فلا يزال هناك قدر هائل من المعلومات التي يتعين علينا استخراجها.
4 أنظمة ذكاء اصطناعي عالقة إلى حد كبير في اللغة الإنجليزية
“لا يعرف ChatGPT الكثير عن الثقافة النرويجية. أو بالأحرى، كل ما يعرفه عن الثقافة النرويجية يُفترض أنه تم تعلمه في الغالب من مصادر اللغة الإنجليزية... يتوافق ChatGPT بشكل واضح مع القيم والقوانين الأمريكية. وفي كثير من الحالات تكون هذه قريبة من القيم النرويجية والأوروبية، ولكن من المفترض ألا يكون هذا هو الحال دائمًا.يمكن لأنظمة الذكاء الاصطناعي تطوير تفاعل عدد أكبر من الأشخاص متعددي الجنسيات معها، أو استخدام اللغات والثقافات الأكثر تنوعًا لتدريب مثل هذه الأنظمة. في الوقت الحالي، يقتصر العديد من الذكاء الاصطناعي على مكتبة واحدة؛ ويمكن أن تنمو إذا أعطيت مفاتيح المكتبات في جميع أنحاء العالم.
5 دور نشر يمكن أن تساعد في تطوير الذكاء الاصطناعي
من الواضح أن هناك خيارًا آخر تم النظر فيه وهو شراء حقوق الترخيص الفردية للعناوين الجديدة. من المفترض أن يسبب هذا مخاوف كبيرة للمبدعين، لكنه سيظل طريقة مثيرة للاهتمام لتطوير أدوات الذكاء الاصطناعي في حالة استنفاد البيانات القابلة للاستخدام.
6 البيانات الاصطناعية هي المستقبل
لا يزال كل الحلول الأخرى محدودًا، ولكن هناك خيار واحد يمكن أن يؤدي إلى ازدهار الذكاء الاصطناعي في المستقبل: البيانات الاصطناعية. ويتم التحقيق في الأمر بالفعل باعتباره احتمالًا حقيقيًا للغاية.
7
الذكاء الاصطناعي أمر مثير للجدل. هناك الكثير من السلبيات لها، لكن المنتقدين يتجاهلون فوائدها. على سبيل المثال، تشير شبكة التدقيق والاستشارات PwC [PDF] إلى أن الذكاء الاصطناعي يمكن أن يساهم بما يصل إلى 15.7 تريليون دولار في الاقتصاد العالمي بحلول عام 2030.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3