أصدرت شركة AI Company Sesame النموذج الأساسي الذي يعمل على تشغيل Maya ، مساعد الصوت الواقعية بشكل مثير للإعجاب.
النموذج ، الذي يبلغ حجمه مليار المعلمة (“المعلمات” التي تشير إلى المكونات الفردية للنموذج) ، تحت رخصة Apache 2.0 ، مما يعني أنه يمكن استخدامه تجاريًا مع قيود قليلة. يسمى CSM-1B ، ويقوم النموذج بإنشاء “رموز الصوت RVQ” من مدخلات النص والصوت ، وفقًا لوصف Sesame على منصة AI Dev التي تعانق.
يشير RVQ إلى “تقدير المتجه المتبقي” ، وهي تقنية لترميز الصوت في رموز منفصلة تسمى الرموز. يتم استخدام RVQ في عدد من تقنيات صوتية منظمة العفو الدولية الحديثة ، بما في ذلك Google Soundstream و Meta’s Encodec.
يستخدم CSM-1B نموذجًا من عائلة Llama’s Meta حيث أن العمود الفقري المقترن بمكون “فك الترميز” الصوتي. يقول سمسم أن البديل الذي تم ضبطه من CSM Powers Maya ، كما يقول Sesame.
“النموذج مفتوح المصدر هنا هو نموذج توليد الأساس” ، يكتب Sesame في وجه CSM-1B المعانقة ومستودعات GitHub. “إنها قادرة على إنتاج مجموعة متنوعة من الأصوات ، لكنها لم يتم ضبطها على أي صوت محدد […] يتمتع هذا النموذج ببعض القدرة على اللغات غير الإنجليزية بسبب تلوث البيانات في بيانات التدريب ، لكن من المحتمل ألا يكون جيدًا. “
من غير الواضح ما هي البيانات التي تستخدمها Sesame لتدريب CSM-1B. لم تقل الشركة.
تجدر الإشارة إلى أن النموذج ليس لديه ضمانات حقيقية يمكن التحدث عنها. لدى Sesame نظام شرف ويحث فقط المطورين والمستخدمين على عدم استخدام النموذج لتقليد صوت الشخص دون موافقته ، أو إنشاء محتوى مضلل مثل الأخبار المزيفة ، أو الانخراط في أنشطة “ضارة” أو “ضارة”.
حاولت العرض التوضيحي على وجه المعانقة ، واستغرق استنساخ صوتي أقل من دقيقة. من هناك ، كان من السهل توليد الكلام إلى رغبة قلبي ، بما في ذلك الموضوعات المثيرة للجدل مثل الانتخابات والدعاية الروسية.
حذرت تقارير المستهلك مؤخرًا من أن العديد من أدوات الاستنساخ الصوتية التي تعمل من الذكاء الاصطناعى في السوق لا تملك ضمانات “ذات معنى” لمنع الاحتيال أو سوء المعاملة.
أصبحت السمسم ، التي شارك في تأسيسها من قبل المؤسس المشارك في Oculus ، بريندان iribe ، فيروسًا في أواخر فبراير بسبب مساعدها في التكنولوجيا ، والتي تقترب من تطهير أراضي وادي Uncanny. المساعد الآخر في Maya و Sesame ، الأميال ، يأخذون أنفاسًا ويتحدثون مع حالات الاضطرابات ، ويمكن مقاطعة أثناء التحدث ، مثل وضع صوت Openai.
أثارت Sesame مبلغًا غير معلوم من رأس المال من Andreessen Horowitz و Spark Capital و Matrix Partners. بالإضافة إلى بناء Tech Assistant Tech ، تقول الشركة إنها تنص على نظارات الذكاء الاصطناعى “المصممة للارتداء طوال اليوم” والتي سيتم تجهيزها بنماذجها المخصصة.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.