تستمر قائمة معايير الذكاء الاصطناعي الغريبة وغير الرسمية في النمو.
على مدار الأيام القليلة الماضية، أصبح البعض في مجتمع الذكاء الاصطناعي على X مهووسًا باختبار كيفية تعامل نماذج الذكاء الاصطناعي المختلفة، وخاصة ما يسمى بنماذج الاستدلال، مع مطالبات مثل هذه: “اكتب نصًا بلغة بايثون لكرة صفراء ترتد داخل شكل ما”. . اجعل الشكل يدور ببطء، وتأكد من بقاء الكرة داخل الشكل.
تعمل بعض النماذج بشكل أفضل على معيار “الكرة ذات الشكل الدوار” أكثر من غيرها. وفقًا لأحد المستخدمين على X، فإن R1 المتاح مجانًا من مختبر الذكاء الاصطناعي الصيني DeepSeek اكتسح الأرضية باستخدام وضع OpenAI’s o1 pro، والذي يكلف 200 دولار شهريًا كجزء من خطة ChatGPT Pro الخاصة بـ OpenAI.
👀 DeepSeek R1 (يمين) سحق o1-pro (يسار) 👀
مطالبة: “اكتب نصًا بلغة بايثون لكرة صفراء ترتد داخل مربع، وتأكد من التعامل مع اكتشاف الاصطدام بشكل صحيح. اجعل المربع يدور ببطء. تنفيذها في بيثون. تأكد من بقاء الكرة داخل المربع” pic.twitter.com/3Sad9efpeZ
– إيفان فيورافانتي ᯅ (@ إيفانفيورافانتي) 22 يناير 2025
في ملصق X آخر، أخطأت نماذج Anthropic’s Claude 3.5 Sonnet وGemini 1.5 Pro من Google في الحكم على الفيزياء، مما أدى إلى هروب الكرة من الشكل. أبلغ مستخدمون آخرون أن Google Gemini 2.0 Flash Thinking Experimental، وحتى GPT-4o الأقدم من OpenAI، حصلوا على التقييم دفعة واحدة.
تم اختبار 9 نماذج للذكاء الاصطناعي في مهمة محاكاة فيزيائية: المثلث الدوار + الكرة المرتدة. نتائج:
🥇ديبسيك-R1
🥈سونار ضخم
🥉جي بي تي-4oأسوأ؟ OpenAI o1: أسيء فهم المهمة تمامًا 😂
الفيديو أدناه ↓ الصف الأول = نماذج الاستدلال، والباقي = النماذج الأساسية. pic.twitter.com/EOYrHvNazr
— أديثيا د (@Aadhithya_D2003) 22 يناير 2025
ولكن ما الذي يثبت أن الذكاء الاصطناعي يمكنه أو لا يستطيع تشفير شكل دوار يحتوي على كرة؟
حسنًا، تعد محاكاة الكرة المرتدة تحديًا برمجيًا كلاسيكيًا. تشتمل عمليات المحاكاة الدقيقة على خوارزميات كشف الاصطدام، والتي تحاول تحديد وقت اصطدام جسمين (مثل الكرة وجانب الشكل). يمكن أن تؤثر الخوارزميات المكتوبة بشكل سيء على أداء المحاكاة أو تؤدي إلى أخطاء فيزيائية واضحة.
يقول مستخدم X n8programs، وهو باحث مقيم في شركة Nous Research الناشئة للذكاء الاصطناعي، إن الأمر استغرق ساعتين تقريبًا لبرمجة كرة نطاطة في شكل سباعي دوار من الصفر. “يتعين على المرء أن يتتبع أنظمة إحداثيات متعددة، وكيفية حدوث الاصطدامات في كل نظام، وتصميم الكود من البداية ليكون قويًا،” أوضحت برامج n8 في منشور.
ولكن في حين أن الكرات المرتدة والأشكال الدوارة تعتبر اختبارًا معقولًا لمهارات البرمجة، إلا أنها ليست معيارًا تجريبيًا للذكاء الاصطناعي. فحتى الاختلافات الطفيفة في الموجه يمكن أن تؤدي إلى نتائج مختلفة – وهي تفعل ذلك بالفعل. ولهذا السبب فإن بعض المستخدمين في تقرير X لديهم حظًا أكبر مع o1، بينما يقول آخرون أن R1 أقل.
إذا كان هناك أي شيء، فإن الاختبارات الفيروسية مثل هذه تشير إلى المشكلة المستعصية المتمثلة في إنشاء أنظمة قياس مفيدة لنماذج الذكاء الاصطناعي. غالبًا ما يكون من الصعب معرفة ما الذي يميز نموذجًا عن الآخر، خارج نطاق المعايير الباطنية التي لا تتعلق بمعظم الناس.
هناك العديد من الجهود الجارية لبناء اختبارات أفضل، مثل معيار ARC-AGI واختبار الإنسانية الأخير. سنرى كيف تسير الأمور – وفي هذه الأثناء شاهد صور GIF للكرات التي ترتد في أشكال دوارة.
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.