تمكن باحثو الذكاء الاصطناعى في ستانفورد وجامعة واشنطن من تدريب نموذج “التفكير” من الذكاء الاصطناعي بأقل من 50 دولارًا في اعتمادات حسابية سحابة ، وفقًا لورقة بحثية جديدة صدرت يوم الجمعة الماضي.
يؤدي النموذج المعروف باسم S1 بشكل مشابه لنماذج التفكير المتطورة ، مثل Openai’s O1 و Deepseek’s R1 ، على الاختبارات التي تقيس قدرات الرياضيات والترميز. يتوفر نموذج S1 على Github ، إلى جانب البيانات والرمز المستخدم لتدريبه.
قال الفريق وراء S1 إنهم أنشأوا نموذج الذكاء الاصطناعى من خلال التقطير ، وهي عملية لاستخراج قدرات “التفكير” من نموذج AI آخر من خلال التدريب على إجاباته. قال الباحثون إن S1 يتم تقطيره من أحد طرز التفكير في Google ، Gemini 2.0 Flash Thinking التجريبي. التقطير هو نفس النهج الذي استخدمه الباحثون في بيركلي لإنشاء نموذج التفكير من الذكاء الاصطناعي لحوالي 450 دولارًا الشهر الماضي.
بالنسبة للبعض ، فإن فكرة أن عدد قليل من الباحثين دون ملايين الدولارات وراءهم لا يزال بإمكانهم الابتكار في مساحة الذكاء الاصطناعى أمر مثير. لكن S1 يثير أسئلة حقيقية حول سلعة نماذج الذكاء الاصطناعي. أين الخندق إذا كان بإمكان شخص ما تكرار طراز بملايين الدولارات عن كثب مع تغيير الجيب النسبي؟
مما لا يثير الدهشة ، أن مختبرات منظمة العفو الدولية الكبيرة ليست سعيدة. اتهمت Openai Deepseek بحصاد البيانات بشكل غير صحيح من واجهة برمجة التطبيقات الخاصة بها لأغراض التقطير النموذجية.
كان الباحثون وراء S1 يتطلعون إلى العثور على أبسط نهج لتحقيق أداء التفكير القوي و “تحجيم وقت الاختبار” ، أو السماح لنموذج الذكاء الاصطناعي بالتفكير أكثر قبل أن يجيب على سؤال. كانت هذه بعض الاختراقات في Openai’s O1 ، والتي حاولت Deepseek وغيرها من مختبرات الذكاء الاصطناعي تكرارها من خلال تقنيات مختلفة.
تشير ورقة S1 إلى أنه يمكن تقطير نماذج التفكير مع مجموعة بيانات صغيرة نسبيًا باستخدام عملية تسمى الضبط الخاضع للإشراف (SFT) ، حيث يتم توجيه نموذج AI بشكل صريح لتقليد بعض السلوكيات في مجموعة بيانات. تميل SFT إلى أن تكون أرخص من طريقة التعلم التعزيز على نطاق واسع والتي استخدمت Deepseek لتدريب إجابتها على Openai’s O1 ، R1.
توفر Google وصولًا مجانيًا إلى Gemini 2.0 Flash Thinking التجريبي ، وإن كان مع حدود السعر اليومية ، عبر منصة Google AI Studio. ومع ذلك ، تمنع شروطها من هندسة عكس نماذجها لتطوير الخدمات التي تتنافس مع عروض AI الخاصة بـ Google. لقد تواصلنا مع Google للتعليق.
يعتمد S1 على طراز صغير من الذكاء الاصطناعي من الذكاء الاصطناعى من AI Lab Qwen المملوكة لـ Alibaba ، والذي يتوفر للتنزيل مجانًا. لتدريب S1 ، أنشأ الباحثون مجموعة بيانات تضم 1000 سؤال منسق بعناية ، مقترنة بإجابات على هذه الأسئلة وكذلك عملية “التفكير” وراء كل إجابة من Google Gemini 2.0 Flash Thinking التجريبية.
بعد تدريب S1 ، الذي استغرق أقل من 30 دقيقة باستخدام 16 NVIDIA H100 GPU ، حقق S1 أداءً قوياً على معايير معينة من الذكاء الاصطناعي ، وفقًا للباحثين. أخبر نيكلاس مولينغوف ، باحث في ستانفورد الذي عمل في المشروع ، TechCrunch أن يستأجر الحساب اللازم اليوم مقابل حوالي 20 دولارًا.
استخدم الباحثون خدعة أنيقة للحصول على S1 للتحقق من عملها وتوسيع وقت “التفكير”: أخبروها الانتظار. ساعدت إضافة كلمة “انتظر” أثناء التفكير في S1 النموذج على الوصول إلى إجابات أكثر دقة قليلاً ، لكل الورقة.
في عام 2025 ، تخطط Meta و Google و Microsoft لاستثمار مئات المليارات من الدولارات في البنية التحتية لمنظمة العفو الدولية ، والتي ستذهب جزئيًا نحو تدريب نماذج الذكاء الاصطناعي من الجيل التالي. قد لا يزال هذا المستوى من الاستثمار ضروريًا لدفع مظروف ابتكار الذكاء الاصطناعي. لقد أظهرت التقطير أنه طريقة جيدة لإعادة تأسيس قدرات نموذج الذكاء الاصطناعي بثمن بخس ، لكنها لا تنشئ نماذج جديدة من الذكاء الاصطناعي بشكل أفضل مما هو متاح اليوم.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.