أعلنت مؤسسة ARC Prize Foundation ، وهي مؤسسة غير ربحية شاركت في تأسيسها باحث AI البارز فرانسوا Chollet ، في منشور مدونة يوم الثلاثاء أنها أنشأت اختبارًا جديدًا ومليءًا لقياس الذكاء العام لنماذج منظمة العفو الدولية.
حتى الآن ، قام الاختبار الجديد ، الذي يسمى ARC-AGI-2 ، بتجميع معظم النماذج.
نماذج “التفكير” مثل Openai’s O1-Pro و Deepseek R1 بين 1 ٪ و 1.3 ٪ على ARC-AGI-2 ، وفقًا لما ذكره المتصدرين لجائزة ARC. النماذج القوية غير الفاتنة بما في ذلك GPT-4.5 و Claude 3.7 Sonnet و Gemini 2.0 فلاش حوالي 1 ٪.
تتكون اختبارات ARC-AAGI من مشاكل تشبه اللغز حيث يتعين على الذكاء الاصطناعي تحديد الأنماط البصرية من مجموعة من المربعات ذات الألوان المختلفة ، وإنشاء شبكة “الإجابة” الصحيحة. تم تصميم المشكلات لإجبار الذكاء الاصطناعي على التكيف مع المشكلات الجديدة التي لم يرها من قبل.
كان لدى مؤسسة جائزة ARC أكثر من 400 شخص يأخذون ARC-AGI-2 لإنشاء خط أساس بشري. في المتوسط ، حصلت “لوحات” من هؤلاء الأشخاص على 60 ٪ من أسئلة الاختبار بشكل صحيح – أفضل بكثير من أي من درجات النماذج.
في منشور على X ، ادعى Chollet ARC-AGI-2 مقياس أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من التكرار الأول للاختبار ، ARC-AGI-1. تهدف اختبارات مؤسسة ARC ARC على تقييم ما إذا كان نظام الذكاء الاصطناعى يمكنه الحصول على مهارات جديدة خارج البيانات التي تم تدريبها بكفاءة.
وقال Chollet إنه على عكس ARC-AGI-1 ، يمنع الاختبار الجديد نماذج الذكاء الاصطناعي من الاعتماد على “القوة الغاشمة”-قوة الحوسبة الواسعة-لإيجاد حلول. اعترفت Chollet سابقًا بأن هذا كان عيبًا رئيسيًا في ARC-AGI-1.
لمعالجة عيوب الاختبار الأول ، يقدم ARC-AGI-2 مقياسًا جديدًا: الكفاءة. كما أنه يتطلب نماذج لتفسير الأنماط أثناء الطيران بدلاً من الاعتماد على الحفظ.
وكتب جريج كامراادت المؤسس المشارك لمؤسسة ARC Bize Foundation: “لا يتم تعريف الذكاء فقط من خلال القدرة على حل المشكلات أو تحقيق درجات عالية”. “إن الكفاءة التي يتم بها الحصول على هذه القدرات ونشرها هي مكون حاسم ومحدد. السؤال الأساسي الذي يطرحه ليس فقط” ، هل يمكن الحصول على منظمة العفو الدولية [the] مهارة لحل المهمة؟ ولكن أيضًا ، “في أي كفاءة أو تكلفة؟”
لم يهزم ARC-AGI-1 لمدة خمس سنوات تقريبًا حتى ديسمبر 2024 ، عندما أصدرت Openai نموذج التفكير المتقدم ، O3 ، الذي تفوق على جميع نماذج الذكاء الاصطناعي الأخرى والأداء البشري المتطابق في التقييم. ومع ذلك ، كما لاحظنا في ذلك الوقت ، فإن أداء أداء O3 على ARC-AGI-1 جاء بسعر ضخم.
إن إصدار نموذج O3 O3-O3 (منخفض)-كان من أول من يصل إلى ارتفاعات جديدة على ARC-AGI-1 ، حيث سجل 75.7 ٪ في الاختبار ، بنسبة 4 ٪ على ARC-AGI-2 باستخدام قدرة الحوسبة بقيمة 200 دولار لكل مهمة.

يأتي وصول ARC-AGI-2 كما يدعو الكثيرون في صناعة التكنولوجيا إلى معايير جديدة غير مشبعة لقياس تقدم الذكاء الاصطناعي. أخبر Thomas Wolf ، المؤسس المشارك لـ Hugging Face ، TechCrunch مؤخرًا أن صناعة الذكاء الاصطناعى تفتقر إلى الاختبارات الكافية لقياس السمات الرئيسية لما يسمى الذكاء العام الاصطناعي ، بما في ذلك الإبداع.
إلى جانب المعيار الجديد ، أعلنت مؤسسة ARC ARC عن مسابقة ARC ARC 2025 الجديدة ، مما يشكل تحديًا للمطورين للوصول إلى 85 ٪ من الدقة في اختبار ARC-AGI-2 بينما ينفق فقط 0.42 دولار لكل مهمة.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.