قد يكون نموذج R1 الذي تم تحديثه لـ Deepseek هو الجزء الأكبر من انتباه مجتمع الذكاء الاصطناعى هذا الأسبوع. لكن مختبر AI الصيني أصدر أيضًا نسخة أصغر “مقطرة” من R1 الجديد ، Deepseek-R1-0528-QWEN3-8B ، الذي يدعي Deepseek يتفوق على نماذج ذات حجم نسبي على معايير معينة.
يعمل R1 الأصغر المحدث ، والذي تم إنشاؤه باستخدام نموذج QWEN3-8B الذي تم إطلاقه في شهر مايو كأساس ، أفضل من فلاش Gemini 2.5 من Google في AIME 2025 ، وهي مجموعة من أسئلة الرياضيات الصعبة.
Deepseek-R1-0528-QWEN3-8B أيضًا يطابق ما يقرب من نموذج Microsoft الذي تم إصداره مؤخرًا PHI 4 Reasoning Plus في اختبار آخر لمهارات الرياضيات ، HMMT.
ما يسمى النماذج المقطرة مثل Deepseek-R1-0528-QWEN3-8B هي عمومًا أقل قدرة من نظيراتها كاملة الحجم. على الجانب الإيجابي ، فهي أقل حسابا من الناحية الحسابية. وفقًا لـ Cloud Platform NodeShift ، يتطلب QWEN3-8B GPU مع ذاكرة الوصول العشوائي 40GB-80GB لتشغيلها (على سبيل المثال ، NVIDIA H100). احتياجات R1 الجديدة ذات الحجم الكامل حوالي عشرة وحدات معالجة الرسومات 80 جيجابايت.
قام Deepseek بتدريب Deepseek-R1-0528-QWEN3-8B عن طريق أخذ نص تم إنشاؤه بواسطة R1 المحدث واستخدامه لضبط QWEN3-8B. في صفحة ويب مخصصة للنموذج على وجه منصة AI Dev ، يصف Deepseek Deepseek-R1-0528-QWEN3-8B بأنه “لكل من الأبحاث الأكاديمية حول نماذج التفكير والتطور الصناعي الذي يركز على النماذج الصغيرة.”
Deepseek-R1-0528-QWEN3-8B متاح بموجب ترخيص معهد ماساتشوستس للتكنولوجيا ، مما يعني أنه يمكن استخدامه تجاريًا دون تقييد. العديد من المضيفين ، بما في ذلك LM Studio ، يقدمون بالفعل النموذج من خلال واجهة برمجة التطبيقات.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.