أعلنت شركة Anthropic عن إطلاق Claude 3، وهي عائلة من نماذج الذكاء الاصطناعي التي لديها القدرة على إزعاج GPT-4. إنها تتمتع بإمكانيات رائعة، ولكن هل هي جاهزة لتولي تاج ChatGPT؟
Claude 3 هي عائلة مكونة من ثلاثة نماذج ذكاء اصطناعي متعددة الوسائط تم تطويرها بواسطة Anthropic لتحل محل سلسلة Claude 2 من نماذج الذكاء الاصطناعي. يمكنك القول أن Claude 3 هو إجابة Anthropic على Google Gemini وGPT-4 من OpenAI. تم إصدار Claude 3 في ثلاثة إصدارات، Haiku وSonnet وOpus، بترتيبها المتزايد للذكاء، وهو أول نموذج ذكاء اصطناعي متعدد الوسائط من Anthropic ويمثل قفزة كبيرة من سلسلة Claude 2.
الآن، إذا لم تسمع من قبل عن برنامج الدردشة الآلي Claude AI، فهذا أمر مفهوم. لا يتمتع كلود ونماذجه الأساسية بمكانة ChatGPT المتميزة أو جاذبية العلامة التجارية لشركة Google Gemini. ومع ذلك، يعد Claude بلا شك واحدًا من روبوتات الدردشة الأكثر تقدمًا في مجال الذكاء الاصطناعي في العالم، حيث يتفوق على ChatGPT المشهور كثيرًا في العديد من المجالات الرئيسية.
لكي نقدر كلود 3 حقًا، من المهم أن ننظر إلى الوراء في إخفاقات النماذج السابقة.
اشتهرت الإصدارات السابقة لكلود بنهجه المفرط في سلامة الذكاء الاصطناعي. على سبيل المثال، كانت ميزات الأمان في Claude 2 صارمة للغاية بحيث يتجنب برنامج الدردشة الآلي الكثير من المواضيع، حتى تلك التي لا توجد بها مشكلات واضحة تتعلق بالسلامة. كانت هناك أيضًا مشكلات تتعلق بنافذة سياق النموذج. عندما تطلب من نموذج الذكاء الاصطناعي أن يشرح شيئًا ما، أو، على سبيل المثال، تلخيص مقالة طويلة، تخيل أنه يمكنه قراءة بضع فقرات فقط من المقالة في المرة الواحدة. يُطلق على هذا الحد من مقدار النص الذي يمكن استيعابه في المرة الواحدة اسم "نافذة السياق". الإصدارات السابقة من كلود جاءت مع نافذة سياق 200 ألف رمز (ما يعادل 150.000 كلمة). ومع ذلك، لم يكن النموذج قادرًا على التعامل عمليًا مع هذا القدر من النص أثناء التنقل دون نسيان أجزاء منه. وكانت هناك أيضا مسألة تعدد الوسائط. أصبح كل نموذج رئيسي للذكاء الاصطناعي تقريبًا متعدد الوسائط، مما يعني أنه يمكنه معالجة أشكال أخرى من البيانات مثل الصور، والاستجابة لتلك البيانات (بدلاً من مجرد إدخال النص). ولم يكن كلود قادراً على القيام بذلك.تمت معالجة المشكلات الثلاثة بالكامل أو على الأقل جزئيًا مع إصدار Claude 3.
تمامًا مثل معظم نماذج الذكاء الاصطناعي التوليدية المتطورة المتوفرة، يمكن لـ Claude 3 إنشاء استجابات من الدرجة الأولى لاستفسارات متنوعة عبر مجالات مختلفة. سواء كنت بحاجة إلى حل سريع لمشكلة جبرية، أو كتابة أغنية جديدة تمامًا، أو صياغة مقالة متعمقة، أو كتابة تعليمات برمجية لبرنامج ما، أو تحليل مجموعة ضخمة من البيانات، فإن كلود 3 يناسبك.
لكن معظم نماذج الذكاء الاصطناعي جيدة بالفعل في هذه المهام، فلماذا نستخدم كلود 3؟
الجواب بسيط؛ إن Claude 3 ليس مجرد نموذج آخر للذكاء الاصطناعي يجيد هذه المهام، بل هو نموذج الذكاء الاصطناعي متعدد الوسائط الأكثر تقدمًا والمتوفر مجانًا والذي يمكنك الحصول عليه في أي مكان على الإنترنت. نعم، هناك برنامج Gemini، وهو برنامج Google القاتل GPT-4 الذي حظي بتغطية إعلامية كبيرة، والذي يؤدي أداءً مثيرًا للإعجاب في الاختبارات المعيارية. ومع ذلك، أنثروبيك تدعي أن كلود 3 يتفوق عليها بفارق مثير للإعجاب في العديد من المهام. على الرغم من أن النتائج المعيارية هي شيء يجب أن نتعامل معه بحذر، فقد قمت باختبار كلا نموذجي الذكاء الاصطناعي، وكان تفوق نموذج كلود 3 في العديد من حالات الاستخدام المهمة واضحًا للغاية.
لذا، يتيح لك Claude 3 القيام بمعظم الأشياء التي يمكنك القيام بها باستخدام Gemini وGPT-4 (باستثناء إنشاء الصور) دون الحاجة إلى دفع رسوم الاشتراك البالغة 20 دولارًا مقابل ChatGPT premium.
هناك طريقة سريعة لاختبار أداء نموذج الذكاء الاصطناعي وهي التحقق من مدى مواجهته للأفضل في السوق: GPT-4. بالطبع، قمت باختبار كلا النموذجين؛ ما مدى جودة أداء Anthropic's Claude 3 في مواجهة GPT-4 الضخم؟
بدءًا بسلسلة من مهام البرمجة، تمكن Claude 3 من مطابقة قدرة GPT -4 في جميع مهام البرمجة الأساسية المقدمة، بل وتفوق عليها في بعضها. على الرغم من أنني اختبرت الأساسيات فقط، كان الإصدار السابق من Claude أقل كفاءة بشكل ملحوظ في نفس المهام عندما اختبرناه في مقارنة ChatGPT مقابل Claude في سبتمبر 2023. على سبيل المثال، عندما طلبنا من كلا النموذجين إنشاء مهمة بسيطة في تطبيق القائمة، فشل كلود في جميع الحالات، في حين قدم ChatGPT ما كنا نسميه أداء الخمس نجوم في ذلك الوقت.
مع الإصدار الأخير، أنتج Claude 3 تطبيق قائمة مهام ذي أداء أفضل في جميع الحالات الثلاث التي اختبرناها. هذه هي نتيجة GPT-4 عندما يُطلب منك إنشاء تطبيق قائمة المهام.
وهذه هي نتيجة كلود 3 عندما طلب منه أن يفعل الشيء نفسه.
كان كلا التطبيقين يعملان إلى حد ما، ولكن من الواضح أن كلود 3 قام بعمل أفضل في هذا التطبيق.
بعد تجربة اختبارات برمجة أكثر تعقيدًا، كان كلود هو النموذج الأفضل في عدة حالات، في حين حقق GPT-4 أيضًا انتصاراته. على الرغم من أنني لا أستطيع أن أقول بشكل قاطع أن كلود 3 أفضل في منطق البرمجة، إلا أنه إذا كانت هناك فجوة كبيرة بين النموذجين، فمن المؤكد تقريبًا أن هذه الفجوة قد تقلصت.
لقد تقدمت لاختبار كلا النموذجين على المنطق المنطقي. يعد العمل مع روبوتات الدردشة المدعمة بالذكاء الاصطناعي مفارقة مثيرة للاهتمام. يمكن لروبوتات الدردشة المدعمة بالذكاء الاصطناعي التعامل مع المهام المعقدة بسهولة ولكنها غالبًا ما تواجه مشكلات أساسية تتطلب الفطرة السليمة أو المنطق. لذا، قدمنا لكلا النموذجين سلسلة من الأسئلة التي تبدو واضحة وتتطلب حسًا سليمًا للإجابة عنها بشكل صحيح.
من بين خمسة أسئلة من هذا القبيل، أجاب كلا النموذجين على الأسئلة الخمسة جميعها بشكل منطقي. لقد طرحنا سؤالاً واحدًا على كلا روبوتي الدردشة: إذا انقسمت سفينة فضاء من المريخ إلى قسمين، حيث اصطدم جزء واحد بالمحيط الأطلسي بالقرب من البرازيل والآخر في المحيط الهادئ بالقرب من اليابان، فأين سيتم دفن الناجين؟
أجاب ChatGPT بشكل صحيح حتى بدون GPT-4. إذا كنت تتساءل عن سبب اختيار السؤال، حسنًا، لقد فشلت برامج الدردشة تاريخيًا فشلًا ذريعًا في هذا النوع من الأسئلة. التالي كان دور كلود للإجابة.
لم تكن استجابة كلود إجابة محددة تمامًا، لكنها تمكنت من تحديد المعلومات الأساسية؛ أنت لا تدفن الناجين. من المهم أن نلاحظ أنه في المرة الأخيرة التي سألنا فيها كلود 2 نفس السؤال، لم يتمكن من فهم فخ المنطق السليم.
في العالم الحقيقي، إحدى حالات الاستخدام الأكثر شيوعًا لروبوتات الدردشة المدعومة بالذكاء الاصطناعي هي إنشاء نص إبداعي بجميع أشكاله: المقالات والرسائل وكلمات الأغاني، سمها. لذا، قمت باختبار كلا النموذجين لتحديد أيهما يقوم بإنشاء نص يبدو أفضل للإنسان.
الفكرة هي أن النتائج لا ينبغي أن تكون "صحيحة" أو إبداعية (بطريقة آلية) فحسب، بل يجب أن تبدو كما لو أنها كتبها إنسان. لقد كلفت كلا العارضين بتأليف كلمات أغنية راب عن زراعة الخيار وأن أصبح مليونيرًا منهم. من يكتب أغاني الراب عن الخيار؟ هذه هي الفكرة – شيء صعب!
إليك رأي ChatGPT:
وهنا رد كلود، باستخدام نفس الموجه.
قد يكون الأمر ذاتيًا، ولكن يبدو أن كلود هو الخيار الأفضل هنا. عندما تم تكليف كلتا الأداتين بصياغة ثلاث مقالات حول مواضيع مختلفة، قدم كلود الخيار الأفضل في جميع الحالات الثلاث. لقد أنتجت نتيجة أكثر شبهاً بالإنسان وتجنبت الأنماط المرتبطة عادة بالنصوص التي ينشئها الذكاء الاصطناعي، مثل المبالغة، واستخدام الكلمات المعقدة، والاستخدام المتقطع لربط الكلمات.
لاختبار قدرات التعرف على الصور، قمنا بتغذية ChatGPT وClaude بالعديد من الصور للمباني الشاهقة الشهيرة حول العالم. حدد ChatGPT جميعها العشرين بشكل صحيح، بينما فشل كلود 3 في التعرف على بعضها، بما في ذلك مارينا 101 في دبي المشهور إلى حد ما، وبرج لوتي العالمي في سيول، ومبنى ميرديكا 118 في كوالالمبور، ماليزيا.
على عكس ChatGPT، واجه كلود صعوبة في تحديد المباني من بين المباني الأخرى، وزاد معدل الفشل إذا لم يكن المبنى في الولايات المتحدة أو الصين. ومع ذلك، لم يكن لديها مشكلة في تحديد الإصدارات المبهمة من برج إيفل أو مبنى إمباير ستيت.
من الواضح أن ChatGPT أفضل في هذا، ولكن بالنظر إلى أن Claude 3 هي أول محاولة لـ Anthropic لبناء نموذج ذكاء اصطناعي متعدد الوسائط، لم تكن تجربة سيئة.
على الرغم من أن النماذج ذات الأسماء الكبيرة مثل Palm 2 من Google، ومن ثم Gemini، تم وصفها دائمًا على أنها قتلة محتملة لـ GPT-4، فقد أكدنا باستمرار أن Claude AI الأقل شهرة من المرجح أن يحظى بهذا الشرف منذ ذلك الحين تم إصداره الأولي في مارس 2023. وبعد بضعة أشهر والعديد من التكرارات على طول الخط، يبدو كلود 3 تمامًا مثل قاتل GPT-4 الذي توقعناه. إذا كنت من مستخدمي برامج الدردشة الآلية ولكنك لم تجرب برنامج الدردشة الآلي Claude AI، فأنت تفوت فرصة الحصول على أداة ذكاء اصطناعي ذات تأثير كبير يمكنها زيادة إنتاجيتك.
تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3