هل اكتشف الباحثون “قانون تحجيم” الذكاء الاصطناعي الجديد؟ هذا ما يقترحه بعض الطنانة على وسائل التواصل الاجتماعي – لكن الخبراء متشككون.
تصف قوانين تحجيم الذكاء الاصطناعى ، وهي مفهوم غير رسمي ، كيف يتحسن أداء نماذج الذكاء الاصطناعي مع زيادة حجم مجموعات البيانات وموارد الحوسبة المستخدمة لتدريبها. حتى قبل عام تقريبًا ، كان توسيع نطاق “التدريب المسبق”-التدريب على النماذج المقلقة على مجموعات البيانات المفرطة على الإطلاق-هو القانون المهيمن إلى حد بعيد ، على الأقل بمعنى أن معظم مختبرات AI الحدودية تبنتها.
لم تختف التدريب المسبق ، لكن قوانين التحجيم الإضافية ، هما التحجيم بعد التدريب وتوسيع وقت الاختبار ، ظهرت لاستكمالها. إن تحجيم ما بعد التدريب هو ضبط سلوك النموذج بشكل أساسي ، في حين أن تحجيم وقت الاختبار يستلزم تطبيق المزيد من الحوسبة على الاستدلال-أي النماذج الجارية-لدفع شكل من “التفكير” (انظر: نماذج مثل R1).
اقترح باحثو Google و UC Berkeley مؤخرًا في ورقة ما وصفه بعض المعلقين عبر الإنترنت بأنه قانون رابع: “البحث عن وقت الاستدلال”.
يحتوي البحث في وقت الاستدلال على نموذج يولد العديد من الإجابات الممكنة على استعلام بالتوازي ، ثم حدد “أفضل” المجموعة. يزعم الباحثون أنه يمكن أن يعزز أداء طراز عمره عام ، مثل Gemini 1.5 Pro من Google ، إلى مستوى يتجاوز نموذج Openai “المنطقي” في معايير العلوم والرياضيات.
تركز ورقتنا على محور البحث هذا واتجاهات التحجيم. على سبيل المثال ، من خلال أخذ عينات من 200 استجابات بشكل عشوائي وتعريف ذاتي ، يتفوق Gemini 1.5 (نموذج قديم 2024!) على O1-Preview و Weakes O1. هذا بدون تحديثات محيطة أو RL أو معاداة الأرض. pic.twitter.com/hb5fo7ifnh
– إريك تشاو (@ericzhao28) 17 مارس 2025
“[B]لقد كتب إريك تشاو ، زميل الدكتوراه في Google ، وهو أحد الموظفين في البورصة ، في سلسلة من المنشورات على X. “إن الجوزاء 1.5-نموذج قديم في أوائل عام 2024-يتفوق على O1-preview ويقترب من O1 ،” يتفوق O1-preview ويقترب O1 ، كنت تتوقع أن يصبح اختيار الحل الصحيح أكثر صعوبة ، فكلما زاد حجم مجموعة الحلول الخاصة بك ، ولكن العكس هو الحال! “
يقول العديد من الخبراء إن النتائج ليست مفاجئة ، وأن البحث في وقت الاستدلال قد لا يكون مفيدًا في العديد من السيناريوهات.
أخبر ماثيو جوزديال ، الباحث في الذكاء الاصطناعي وأستاذ مساعد في جامعة ألبرتا ، TechCrunch أن النهج يعمل بشكل أفضل عندما تكون هناك “وظيفة تقييم جيدة” – بمعنى آخر ، عندما يمكن التحقق من أفضل إجابة على سؤال بسهولة. لكن معظم الاستفسارات ليست هذه القطع والجفاف.
“[I]لا يمكننا كتابة رمز لتحديد ما نريد ، لا يمكننا استخدامه [inference-time] قال: عن شيء مثل التفاعل بين اللغة العامة ، لا يمكننا القيام بذلك […] عمومًا ليس مقاربة رائعة لحل معظم المشكلات بالفعل. “
وافق مايك كوك ، زميل أبحاث في كينجز كوليدج لندن المتخصص في منظمة العفو الدولية ، مع تقييم جوزديال ، مضيفًا أنه يسلط الضوء على الفجوة بين “التفكير” بمعنى الذكاء الاصطناعي للكلمة وعمليات تفكيرنا.
“[Inference-time search] قال كوك إن “لا ترفع عملية التفكير” للنموذج “.[I]T ليست سوى طريقة منا العمل حول قيود التكنولوجيا المعرضة لارتكاب أخطاء مدعومة للغاية […] بشكل حدسي إذا ارتكب نموذجك خطأً 5 ٪ من الوقت ، فإن التحقق من 200 محاولة في نفس المشكلة يجب أن يجعل هذه الأخطاء أسهل. “
قد يكون لهذا البحث في وقت الاستدلال قيودًا من المؤكد أن تكون أخبارًا غير مرحب بها لصناعة الذكاء الاصطناعى تتطلع إلى توسيع نطاق النموذج “المنطقي” بشكل فعال. بصفتها المؤلفين المشاركين في الملاحظة الورقية ، يمكن أن ترفع نماذج التفكير اليوم آلاف الدولارات من الحوسبة في مشكلة رياضية واحدة.
يبدو أن البحث عن تقنيات التحجيم الجديدة سيستمر.
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.