"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > منظمة العفو الدولية > أدوات الذكاء الاصطناعي تنفد منها بيانات التدريب، ولكن هناك 6 حلول

أدوات الذكاء الاصطناعي تنفد منها بيانات التدريب، ولكن هناك 6 حلول

تم النشر بتاريخ 2024-07-29
تصفح:591

يحتاج الذكاء الاصطناعي إلى بيانات تدريبية، لكن هذه البيانات محدودة. إذًا، كيف يمكننا تدريب الذكاء الاصطناعي بحيث يستمر في النمو ويكون مفيدًا لنا؟

قد تعتقد أن الإنترنت وبياناته هي موارد لا تنضب، ولكن أدوات الذكاء الاصطناعي تنفد من البيانات المتاحة لي. الآن، قبل أن تقلق، لن يوقف ذلك تطور الذكاء الاصطناعي، فهناك الكثير من البيانات التي لا تزال جاهزة لتدريب أنظمة الذكاء الاصطناعي.

1 هناك دائمًا المزيد من البيانات المضافة عبر الإنترنت

باختصار، يقول معهد أبحاث الذكاء الاصطناعي Epoch إن البيانات عالية الجودة التي يتم تدريب الذكاء الاصطناعي عليها قد تنفد بحلول عام 2026.

الكلمة الأساسية هناك هي "يمكن". تزداد كمية البيانات المضافة إلى الإنترنت كل عام، لذلك قد يتغير شيء جذري قبل عام 2026. ومع ذلك، يظل هذا تقديرًا عادلاً، ففي كلتا الحالتين، ستنفد أنظمة الذكاء الاصطناعي من البيانات الجيدة في مرحلة ما.

يجب أن نتذكر، مع ذلك، أنه تتم إضافة حوالي 147 زيتابايت من البيانات عبر الإنترنت كل عام (وفقًا لـ Exploding Topics). زيتابايت واحد فقط يساوي 1,000,000,000,000,000,000,000 بت من البيانات. بالقيمة الحقيقية (حسنًا، حقيقي إلى حد ما)، هذا أكثر من 30 مليار فيلم بدقة 4K (حقيقي، ولكن لا يمكن فهمه). إنها كمية مذهلة من المعلومات التي يتعين على الذكاء الاصطناعي التدقيق فيها.

ومع ذلك، فإن الذكاء الاصطناعي يستهلك البيانات بشكل أسرع مما يمكن للبشرية إنتاجها…

2 الذكاء الاصطناعي يمكن أن ينسى البيانات منخفضة الجودة

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

ليست كل 147 زيتابايت من البيانات جيدة البيانات، بطبيعة الحال. هناك الكثير مما تراه العين. ولكن من المقدر أن الذكاء الاصطناعي سوف يستهلك بيانات لغوية منخفضة الجودة بحلول عام 2050 أيضًا.

ذكرت رويترز أن Photobucket، التي كانت في يوم من الأيام واحدة من أكبر مستودعات الصور في العالم، كانت تجري محادثات لترخيص مكتبتها الواسعة لشركات تدريب الذكاء الاصطناعي. تحتوي بيانات الصور على أنظمة مدربة مثل DALL-E وMidjourney، ولكن حتى هذا يمكن أن ينفد بحلول عام 2060. هناك مشكلة أكبر هنا أيضًا: فقد ضم Photobucket صورًا من منصات الوسائط الاجتماعية في العقد الأول من القرن الحادي والعشرين مثل Myspace، مما يعني أنها ليست عالية المستوى مثل التصوير الفوتوغرافي الحالي. وهذا يؤدي إلى بيانات ذات جودة منخفضة.

Photobucket ليس وحده. في فبراير 2024، أبرمت جوجل صفقة مع ريديت، مما يسمح لعملاق البحث باستخدام بيانات مستخدم منصة التواصل الاجتماعي في تدريب الذكاء الاصطناعي. توفر منصات الوسائط الاجتماعية الأخرى أيضًا بيانات المستخدم لأغراض التدريب على الذكاء الاصطناعي؛ يستخدمه البعض لتدريب نماذج الذكاء الاصطناعي الداخلية، مثل Meta's Llama.

ومع ذلك، في حين أنه يمكن استخلاص بعض المعلومات من بيانات منخفضة الجودة، تفيد التقارير أن مايكروسوفت تعمل على تطوير طريقة للذكاء الاصطناعي "لتجاهل" البيانات بشكل انتقائي. في المقام الأول، سيتم استخدام هذا لقضايا الملكية الفكرية، ولكنه قد يعني أيضًا أن الأدوات يمكن أن تنسى ما تعلمته من مجموعات البيانات منخفضة الجودة.

يمكننا تغذية الذكاء الاصطناعي بمزيد من البيانات دون أن نكون انتقائيين للغاية؛ يمكن لأنظمة الذكاء الاصطناعي هذه بعد ذلك انتقاء واختيار ما هو أكثر فائدة للتعلم منه.

3 التعرف على الكلام يفتح بيانات الفيديو والبودكاست

تتكون البيانات التي يتم تغذيتها بأدوات الذكاء الاصطناعي حتى الآن إلى حد كبير من النصوص، وبدرجة أقل، من الصور. سيتغير هذا بلا شك، ومن المحتمل أن يتغير بالفعل، لأن برامج التعرف على الكلام ستعني أن وفرة مقاطع الفيديو والبودكاست المتاحة يمكنها أيضًا تدريب الذكاء الاصطناعي.

والجدير بالذكر أن OpenAI طورت الشبكة العصبية مفتوحة المصدر للتعرف التلقائي على الكلام (ASR)، Whisper، باستخدام 680.000 ساعة من البيانات متعددة اللغات ومتعددة المهام. قامت OpenAI بعد ذلك بتغذية أكثر من مليون ساعة من المعلومات من مقاطع فيديو YouTube إلى نموذجها اللغوي الكبير، GPT-4.

يعد هذا نموذجًا مثاليًا لأنظمة الذكاء الاصطناعي الأخرى، التي تستخدم التعرف على الكلام لنسخ مقاطع الفيديو والصوت من مصادر عديدة وتشغيل تلك البيانات من خلال نماذج الذكاء الاصطناعي الخاصة بها.

وفقًا لـ Statista، يتم تحميل أكثر من 500 ساعة من الفيديو على YouTube كل دقيقة، وهو رقم ظل ثابتًا إلى حد ما منذ عام 2019. هذا دون ذكر منصات الفيديو والصوت الأخرى مثل Dailymotion وPodbean. إذا تمكن الذكاء الاصطناعي من تحويل انتباهه إلى مجموعات بيانات جديدة مثل هذه، فلا يزال هناك قدر هائل من المعلومات التي يتعين علينا استخراجها.

4 أنظمة ذكاء اصطناعي عالقة إلى حد كبير في اللغة الإنجليزية

هذا ليس كل ما يمكننا تعلمه من Whisper. قامت OpenAI بتدريب النموذج باستخدام 117000 ساعة من البيانات الصوتية غير الإنجليزية. وهذا أمر مثير للاهتمام بشكل خاص لأن العديد من أنظمة الذكاء الاصطناعي تم تدريبها بشكل أساسي باستخدام اللغة الإنجليزية أو عرض الثقافات الأخرى من خلال العدسة الغربية.

في الأساس، معظم الأدوات مقيدة بثقافة منشئيها.

خذ ChatGPT كمثال. بعد وقت قصير من إطلاقه في عام 2022، قامت جيل ووكر ريتبيرج، أستاذ الثقافة الرقمية في جامعة بيرغن بالنرويج، بتجربة ChatGPT وخلصت إلى ما يلي:

“لا يعرف ChatGPT الكثير عن الثقافة النرويجية. أو بالأحرى، كل ما يعرفه عن الثقافة النرويجية يُفترض أنه تم تعلمه في الغالب من مصادر اللغة الإنجليزية... يتوافق ChatGPT بشكل واضح مع القيم والقوانين الأمريكية. وفي كثير من الحالات تكون هذه قريبة من القيم النرويجية والأوروبية، ولكن من المفترض ألا يكون هذا هو الحال دائمًا.

يمكن لأنظمة الذكاء الاصطناعي تطوير تفاعل عدد أكبر من الأشخاص متعددي الجنسيات معها، أو استخدام اللغات والثقافات الأكثر تنوعًا لتدريب مثل هذه الأنظمة. في الوقت الحالي، يقتصر العديد من الذكاء الاصطناعي على مكتبة واحدة؛ ويمكن أن تنمو إذا أعطيت مفاتيح المكتبات في جميع أنحاء العالم.

5 دور نشر يمكن أن تساعد في تطوير الذكاء الاصطناعي

من الواضح أن الملكية الفكرية مشكلة كبيرة، ولكن يمكن لبعض الناشرين المساعدة في تطوير الذكاء الاصطناعي من خلال إبرام اتفاقيات الترخيص. وهذا يعني إعطاء الأدوات بيانات عالية الجودة، أي موثوقة، من الكتب بدلاً من الحصول على معلومات منخفضة الجودة مستمدة من مصادر عبر الإنترنت. AI Tools Are Running Out of Training Data, but There Are 6 Solutions&&& في الواقع، يقال إن شركة ميتا، المالكة لمواقع فيسبوك وإنستغرام وواتساب، فكرت في شراء شركة سايمون آند شوستر، إحدى دور النشر "الخمسة الكبار". وكانت الفكرة هي استخدام الأدبيات التي نشرتها الشركة لتدريب الذكاء الاصطناعي الخاص بشركة ميتا. فشلت الصفقة في نهاية المطاف، ربما بسبب المنطقة الرمادية الأخلاقية للشركة التي تعالج عناوين IP دون موافقة مسبقة من الكتاب.

من الواضح أن هناك خيارًا آخر تم النظر فيه وهو شراء حقوق الترخيص الفردية للعناوين الجديدة. من المفترض أن يسبب هذا مخاوف كبيرة للمبدعين، لكنه سيظل طريقة مثيرة للاهتمام لتطوير أدوات الذكاء الاصطناعي في حالة استنفاد البيانات القابلة للاستخدام.

6 البيانات الاصطناعية هي المستقبل

لا يزال كل الحلول الأخرى محدودًا، ولكن هناك خيار واحد يمكن أن يؤدي إلى ازدهار الذكاء الاصطناعي في المستقبل: البيانات الاصطناعية. ويتم التحقيق في الأمر بالفعل باعتباره احتمالًا حقيقيًا للغاية.

إذن، ما هي البيانات الاصطناعية؟ وبهذا المعنى، فهي بيانات أنشأها الذكاء الاصطناعي؛ مثلما يقوم البشر بإنشاء البيانات، فإن هذه الطريقة ستشهد قيام الذكاء الاصطناعي بإنشاء بيانات لأغراض التدريب.

في الواقع، يمكن للذكاء الاصطناعي إنشاء فيديو عميق التزييف مقنع. يمكن تغذية هذا الفيديو المزيف العميق مرة أخرى إلى الذكاء الاصطناعي حتى يتمكن من التعلم مما هو في الأساس سيناريو خيالي. وهذه، في نهاية المطاف، إحدى الطرق الرئيسية التي يتعلم بها البشر: فنحن نقرأ أو نشاهد شيئًا ما من أجل فهم العالم من حولنا.

من المحتمل أن تكون أنظمة الذكاء الاصطناعي قد استهلكت بالفعل معلومات اصطناعية. قامت تقنية Deepfakes بنشر معلومات مضللة ومضللة عبر الإنترنت، لذلك عندما تقوم أنظمة الذكاء الاصطناعي بمسح الإنترنت، فمن المنطقي أن يكون البعض قد تعرض لمحتوى مزيف.

نعم، هناك جانب خبيث لهذا. ويمكن أن يؤدي أيضًا إلى إتلاف أنظمة الذكاء الاصطناعي أو الحد منها، مما يعزز وينشر الأخطاء التي ترتكبها تلك الأدوات. وتعمل الشركات على القضاء على المشكلة الأخيرة؛ ومع ذلك، فإن عبارة "تعلم الذكاء الاصطناعي من بعضها البعض وارتكاب الأخطاء" هي نقطة حبكة للعديد من سيناريوهات كابوس الخيال العلمي.

7

الذكاء الاصطناعي أمر مثير للجدل. هناك الكثير من السلبيات لها، لكن المنتقدين يتجاهلون فوائدها. على سبيل المثال، تشير شبكة التدقيق والاستشارات PwC [PDF] إلى أن الذكاء الاصطناعي يمكن أن يساهم بما يصل إلى 15.7 تريليون دولار في الاقتصاد العالمي بحلول عام 2030.

علاوة على ذلك، يتم استخدام الذكاء الاصطناعي بالفعل في جميع أنحاء العالم. من المحتمل أنك استخدمته اليوم بشكل أو بآخر، وربما دون أن تدرك ذلك. والآن خرج الجني من القمقم، والمفتاح هو بالتأكيد تدريبه على بيانات موثوقة وعالية الجودة حتى نتمكن من الاستفادة منها بشكل صحيح.

الذكاء الاصطناعي له إيجابياته وله سلبياته. هناك توازن يمكن العثور عليه.

بيان الافراج تم نشر هذه المقالة على: https://www.makeuseof.com/ai-running-out-training-data-solutions/ إذا كان هناك أي انتهاك، يرجى الاتصال بـ [email protected] لحذفه
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3