كشفت شركة DeepMind، مؤسسة أبحاث الذكاء الاصطناعي التابعة لشركة Google، عن نموذج يمكنه إنشاء مجموعة متنوعة “لا نهاية لها” من العوالم ثلاثية الأبعاد القابلة للتشغيل.
النموذج المسمى Genie 2، وهو خليفة نموذج Genie الذي طورته شركة DeepMind والذي تم إصداره في وقت سابق من هذا العام، يمكنه توليد مشهد تفاعلي في الوقت الفعلي من صورة واحدة ووصف نصي (على سبيل المثال: “روبوت لطيف يشبه الإنسان في الغابة”). وبهذه الطريقة، فهو يشبه النماذج قيد التطوير من قبل شركة Fei-Fei Li، وWorld Labs، وشركة Decart الإسرائيلية الناشئة.
تدعي شركة DeepMind أن Genie 2 يمكنه توليد “مجموعة واسعة من العوالم الغنية ثلاثية الأبعاد”، بما في ذلك العوالم التي يمكن للمستخدمين فيها اتخاذ إجراءات مثل القفز والسباحة باستخدام الماوس أو لوحة المفاتيح. تم تدريب النموذج على مقاطع الفيديو، وهو قادر على محاكاة تفاعلات الكائنات، والرسوم المتحركة، والإضاءة، والفيزياء، والانعكاسات، وسلوك “الشخصيات غير القابلة للعب”.
تبدو العديد من عمليات محاكاة Genie 2 وكأنها ألعاب فيديو AAA – وقد يكون السبب هو أن بيانات التدريب الخاصة بالنموذج تحتوي على عمليات تشغيل لعناوين شائعة. لكن DeepMind، مثل العديد من مختبرات الذكاء الاصطناعي، لن تكشف عن الكثير من التفاصيل حول طرق الحصول على البيانات، لأسباب تنافسية أو غير ذلك.
ويتساءل المرء عن الآثار المترتبة على الملكية الفكرية. تتمتع DeepMind – كونها شركة تابعة لشركة Google – بوصول غير مقيد إلى YouTube، وقد أشارت Google سابقًا إلى أن شروط الخدمة الخاصة بها تمنحها الإذن باستخدام مقاطع فيديو YouTube للتدريب النموذجي. لكن هل يقوم Genie 2 في الأساس بإنشاء نسخ غير مصرح بها من ألعاب الفيديو التي “شاهدها”؟ هذا هو ما تقرره المحاكم.
يقول DeepMind أن Genie 2 يمكنه إنشاء عوالم متسقة مع وجهات نظر مختلفة، مثل منظور الشخص الأول ووجهات نظر متساوية القياس، لمدة تصل إلى دقيقة، وتستمر معظمها من 10 إلى 20 ثانية.
كتب DeepMind في منشور بالمدونة: “يستجيب Genie 2 بذكاء للإجراءات التي يتم اتخاذها عن طريق الضغط على المفاتيح الموجودة على لوحة المفاتيح، وتحديد الشخصية وتحريكها بشكل صحيح”. “على سبيل المثال، نموذجنا [can] اكتشف أن مفاتيح الأسهم يجب أن تحرك الروبوت وليس الأشجار أو السحب.
يمكن لمعظم النماذج مثل Genie 2 – النماذج العالمية، إذا صح التعبير – محاكاة الألعاب والبيئات ثلاثية الأبعاد، ولكن مع مشكلات تتعلق بالتصنيع والاتساق والهلوسة. على سبيل المثال، يتمتع جهاز محاكاة Minecraft من Decart، Oasis، بدقة منخفضة، وسرعان ما “ينسى” تخطيط المستويات.
ومع ذلك، يمكن لـ Genie 2 أن يتذكر أجزاء من المشهد المحاكى غير المرئي ويعرضها بدقة عندما تصبح مرئية مرة أخرى، كما تدعي DeepMind. (يمكن لنماذج World Labs القيام بذلك أيضًا).
الآن، الألعاب التي تم إنشاؤها باستخدام Genie 2 لن تكون ممتعة حقًا. إن مسح تقدمك كل دقيقة من شأنه أن يدفع أي شخص إلى أعلى الحائط. لذلك قامت شركة DeepMind بوضع النموذج باعتباره أداة بحثية وإبداعية أكثر – أداة لوضع نماذج أولية لـ “التجارب التفاعلية” وتقييم عملاء الذكاء الاصطناعي.
كتب DeepMind: “بفضل إمكانيات التعميم خارج نطاق التوزيع التي تتمتع بها Genie 2، يمكن تحويل الفن المفاهيمي والرسومات إلى بيئات تفاعلية بالكامل”. “وباستخدام Genie 2 لإنشاء بيئات غنية ومتنوعة لعملاء الذكاء الاصطناعي بسرعة، يمكن لباحثينا إنشاء مهام تقييم لم يراها العملاء أثناء التدريب.”
يقول DeepMind أنه على الرغم من أن Genie 2 لا يزال في مراحله الأولى، إلا أن المختبر يعتقد أنه سيكون عنصرًا رئيسيًا في تطوير عملاء الذكاء الاصطناعي في المستقبل.
لقد ضخت جوجل موارد متزايدة في النماذج العالمية، والتي تعد بأن تكون الشيء الكبير التالي في مجال الذكاء الاصطناعي. في أكتوبر/تشرين الأول، قامت شركة DeepMind بتعيين تيم بروكس، الذي كان يرأس تطوير مولد الفيديو Sora التابع لـ OpenAI، للعمل على تقنيات توليد الفيديو وأجهزة المحاكاة العالمية.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.