تتهم ورقة جديدة من AI Lab Cohere و Stanford و MIT و AI2 LM Arena ، وهي المنظمة التي تقف وراء AI Crowdsisted AI Stchmark chatbot Arena ، لمساعدة مجموعة مختارة من شركات AI على تحقيق درجات أفضل للمتصدرين على حساب المنافسين.
وفقًا للمؤلفين ، سمحت LM Arena لبعض شركات AI الرائدة في الصناعة مثل Meta و Openai و Google و Amazon باختبار العديد من المتغيرات من طرز الذكاء الاصطناعى ، ثم لا تنشر عشرات الفنانين الأقل. يقول المؤلفون إن هذا جعل من السهل على هذه الشركات تحقيق نقطة أعلى على المتصدرين في المنصة ، على الرغم من أن الفرصة لم تمنح كل شركة.
”فقط حفنة من [companies] قيل أن هذا الاختبار الخاص كان متاحًا ، وكمية الاختبارات الخاصة التي بعضها [companies] وقالت نائب رئيس شركة Cohere’s AI Research والمؤلف المشارك للدراسة ، سارة هوكر ، في مقابلة مع TechCrunch: “هذا هو أكثر بكثير من غيرها.”
تم إنشاؤه في عام 2023 كمشروع بحث أكاديمي من جامعة كاليفورنيا في بيركلي ، وأصبح Chatbot Arena بمثابة معيار لشركات الذكاء الاصطناعي. إنه يعمل من خلال وضع إجابات من طرازين مختلفين من الذكاء الاصطناعي جنبًا إلى جنب في “معركة” ، ويطلب من المستخدمين اختيار أفضل واحدة. ليس من غير المألوف رؤية النماذج غير المُصدر تتنافس في الساحة تحت اسم مستعار.
تساهم الأصوات بمرور الوقت في درجة النموذج – وبالتالي وضعه على المتصدرين في chatbot Arena. في حين أن العديد من الممثلين التجاريين يشاركون في chatbot Arena ، فقد حافظت LM Arena منذ فترة طويلة على أن مؤشرها هو وضع محايد وعادل.
ومع ذلك ، هذا ليس ما يقوله مؤلفو الورقة أنهم اكتشفوا.
تمكنت إحدى الشركات AI ، Meta ، من اختبار 27 متغيرًا من طراز STATBOT Arena بين يناير ومارس قبل إصدار LLAMA 4 العملاق للتكنولوجيا ، كما يزعم المؤلفون. في Launch ، كشف Meta علنًا فقط عن درجة نموذج واحد – وهو نموذج حدث ليصبح بالقرب من الجزء العلوي من لوحة Chatbot Arena.
حدث TechCrunch
بيركلي ، كاليفورنيا
|
5 يونيو
كتاب الآن
في رسالة بريد إلكتروني إلى TechCrunch ، قال المؤسس المشارك LM Arena وأستاذ UC Berkeley Ion Stoica إن الدراسة كانت مليئة بـ “عدم الدقة” و “التحليل المشكوك فيها”.
وقالت LM Arena في بيان مقدم لـ TechCrunch: “نحن ملتزمون بالتقييمات العادلة التي تعتمد على المجتمع ، ودعوة جميع مقدمي الخدمات النموذجية لتقديم المزيد من النماذج للاختبار وتحسين أدائهم على تفضيلات الإنسان”. “إذا اختار مزود النموذج تقديم اختبارات أكثر من مزود النموذج الآخر ، فهذا لا يعني أن مزود النموذج الثاني يعامل بشكل غير عادل.”
من المفترض أن تكون مختبرات مفضلة
بدأ مؤلفو الورقة في إجراء أبحاثهم في نوفمبر 2024 بعد أن علموا أن بعض شركات الذكاء الاصطناعى قد تُمنح الوصول التفضيلي إلى chatbot Arena. في المجموع ، قاموا بقياس أكثر من 2.8 مليون معارك chatbot Arena على مدار خمسة أشهر.
يقول المؤلفون إنهم وجدوا أدلة على أن LM Arena سمحت لبعض شركات الذكاء الاصطناعي ، بما في ذلك Meta و Openai و Google ، لجمع المزيد من البيانات من Chatbot Arena من خلال ظهور نماذجها في عدد أكبر من “المعارك”. يزعم المؤلفون أن معدل أخذ العينات المتزايد هذا أعطى هذه الشركات ميزة غير عادلة.
يمكن أن يؤدي استخدام بيانات إضافية من LM Arena إلى تحسين أداء النموذج على Arena Hard ، كما تحتفظ LM Arena بنسبة 112 ٪. ومع ذلك ، قال LM Arena في منشور على X أن الأداء الصلب Arena لا يرتبط ارتباطًا مباشرًا بأداء Chatbot Arena.
قال هوكر إنه من غير الواضح كيف تلقت بعض شركات الذكاء الاصطناعى الوصول إلى الأولوية ، ولكن من المهم أن تزيد من شفافية LM بغض النظر.
في منشور على X ، قال LM Arena أن العديد من المطالبات في الورقة لا تعكس الواقع. أشارت المؤسسة إلى منشور مدونة نشرته في وقت سابق من هذا الأسبوع مما يشير إلى أن نماذج من مختبرات غير ماجور تظهر في معارك chatbot أكثر مما تشير الدراسة.
أحد القيود المهمة للدراسة هو أنها تعتمد على “التعرف على الذات” لتحديد نماذج الذكاء الاصطناعى التي كانت في اختبار خاص على chatbot Arena. دفع المؤلفون نماذج الذكاء الاصطناعى عدة مرات حول شركتهم الأصلية ، واعتمدوا على إجابات النماذج لتصنيفها – وهي طريقة ليست مضمونة.
ومع ذلك ، قال هوكر أنه عندما وصل المؤلفون إلى LM Arena لتبادل النتائج الأولية الخاصة بهم ، لم تتجاوزها المنظمة.
وصل TechCrunch إلى Meta و Google و Openai و Amazon – وكلها مذكورة في الدراسة – للتعليق. لم يرد على الفور.
LM Arena في الماء الساخن
في الورقة ، يستدعي المؤلفون LM Arena لتنفيذ عدد من التغييرات التي تهدف إلى جعل chatbot Arena أكثر “عادلة”. على سبيل المثال ، يقول المؤلفون ، إن LM Arena يمكن أن تحدد حد واضح وشفاف لعدد الاختبارات الخاصة التي يمكن أن تجريها معمل AI ، والكشف علنًا عن الدرجات من هذه الاختبارات.
في منشور على X ، رفضت LM Arena هذه الاقتراحات ، مدعيا أنها نشرت معلومات عن اختبار ما قبل الإصدار منذ مارس 2024. وقالت المؤيسة المعيارية أيضًا إنها “لا معنى لها لإظهار الدرجات لنماذج ما قبل الإصدار غير المتاحة للجمهور” ، لأن مجتمع الذكاء الاصطناعي لا يمكنه اختبار النماذج لأنفسهم.
يقول الباحثون أيضًا إن LM Arena يمكنه ضبط معدل أخذ العينات في chatbot Arena لضمان ظهور جميع النماذج في الساحة في نفس العدد من المعارك. لم تقبل LM Arena هذه التوصية علنًا ، وأشارت إلى أنها ستنشئ خوارزمية جديدة لأخذ العينات.
تأتي الورقة بعد أسابيع من معايير Meta معايير الألعاب في Arena Chatbot حول إطلاق طرازات LAMA 4 المذكورة أعلاه. قامت Meta بتحسين أحد طرازات Llama 4 لـ “Toversality” ، مما ساعدها على تحقيق درجة مثيرة للإعجاب على المتصدرين في Chatbot Arena. لكن الشركة لم تصدر أبدًا الطراز الأمثل – وانتهى الأمر بإصدار الفانيليا إلى أداء أسوأ بكثير على chatbot Arena.
في ذلك الوقت ، قالت LM Arena إن Meta كان يجب أن يكون أكثر شفافية في مقاربتها في القياس.
في وقت سابق من هذا الشهر ، أعلنت LM Arena أنها ستطلق شركة ، مع خطط لجمع رأس المال من المستثمرين. تزيد الدراسة من التدقيق في المؤسسة القياسية الخاصة – وما إذا كان يمكن الوثوق بها لتقييم نماذج الذكاء الاصطناعى دون التأثير على الشركات التي تضعف العملية.
تحديث في 4/30/25 في الساعة 9:35 مساءً PT: تضمن إصدار سابق من هذه القصة تعليقًا من مهندس Google DeepMind الذي قال إن جزءًا من دراسة Cohere كان غير دقيق. لم يعارض الباحث أن Google أرسل 10 طرز إلى LM Arena لاختبار ما قبل الإصدار من يناير إلى مارس ، كما يزعم Cohere ، ولكن ببساطة لاحظ فريق الشركة المفتوح المصدر ، الذي يعمل على Gemma ، أرسل واحدة فقط.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.