استخدمت الأنثروبور بوكيمون لقياس أحدث طراز من الذكاء الاصطناعي. نعم حقا.
في منشور مدونة نُشر يوم الاثنين ، قالت الأنثروبور إنها اختبرت أحدث طراز لها ، Claude 3.7 Sonnet ، على لعبة Boy Boy Classic Pokémon Red. قامت الشركة بتجهيز النموذج بالذاكرة الأساسية ، وإدخال بكسل الشاشة ، ومكالمات الوظائف للضغط على الأزرار والتنقل حول الشاشة ، مما يتيح له تشغيل Pokémon بشكل مستمر.
تتمثل ميزة فريدة من نوعها في Claude 3.7 Sonnet في قدرتها على الانخراط في “التفكير الموسع”. مثل Openai’s O3-Mini و Deepseek’s R1 ، يمكن لـ Claude 3.7 Sonnet “التفكير” من خلال المشكلات الصعبة من خلال تطبيق المزيد من الحوسبة-وأخذ المزيد من الوقت.
التي جاءت في متناول يدي في بوكيمون الأحمر ، على ما يبدو.
بالمقارنة مع نسخة سابقة من كلود ، كلود 3.0 سونيت ، الذي فشل في مغادرة المنزل في بلدة البليت حيث تبدأ القصة ، حارب كلود 3.7 Sonnet بثلاثة قادة بوكيمون للألعاب الرياضية وفازت شاراتهم.
الآن ، ليس من الواضح مقدار الحوسبة المطلوبة لـ Claude 3.7 Sonnet للوصول إلى تلك المعالم – والمدة التي يستغرقها كل منها. قال الإنسان فقط إن النموذج أجرى 35000 إجراء للوصول إلى آخر قائد صالة الألعاب الرياضية ، تراجع.
بالتأكيد لن يمر وقت طويل قبل أن يكتشف بعض المطورين المغامرين.
Pokémon Red هو أكثر من معيار لعبة أكثر من أي شيء آخر. ومع ذلك ، هناك يكون تاريخ طويل من الألعاب المستخدمة لأغراض القياس من الذكاء الاصطناعي. في الأشهر القليلة الماضية وحدها ، ظهر عدد من التطبيقات والمنصات الجديدة لاختبار قدرات اللعب في الألعاب على الألقاب التي تتراوح من شارع المقاتلة إلى الصور.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.