في أواخر مارس الماضي ، أعلنت Openai عن “معاينة صغيرة الحجم” لخدمة AI ، المحرك الصوتي ، الذي ادعت الشركة أنه يمكن أن يستنسخ صوت الشخص مع 15 ثانية فقط من الكلام. بعد مرور عام تقريبًا ، تظل الأداة في المعاينة ، ولم تقدم Openai أي إشارة إلى وقت إطلاقها – أو ما إذا كانت ستطلق على الإطلاق.
قد يشير إحجام الشركة عن طرح الخدمة على نطاق واسع إلى مخاوف من سوء الاستخدام ، ولكنها قد تعكس أيضًا محاولة لتجنب دعوة التدقيق التنظيمي. تم اتهام Openai تاريخياً بإعطاء الأولوية “المنتجات اللامعة” على حساب السلامة ، وإصدارات التسرع للتغلب على الشركات المتنافسة للتسويق.
في بيان ، أخبر متحدث باسم Openai TechCrunch أن الشركة تواصل اختبار المحرك الصوتي مع مجموعة محدودة من “الشركاء الموثوق بهم”.
“[We’re] التعلم من كيف [our partners are] وقال المتحدث باسم المتحدث “باستخدام التكنولوجيا حتى نتمكن من تحسين فائدة النموذج وسلامته”. “لقد كنا متحمسين لرؤية الطرق المختلفة التي يتم استخدامها ، من علاج الكلام ، إلى تعلم اللغة ، إلى دعم العملاء ، إلى شخصيات ألعاب الفيديو ، إلى AI Avatars.”
دفعت إلى الخلف
يقوم Voice Engine ، الذي يعمل على تشغيل الأصوات المتوفرة في واجهة برمجة تطبيقات النص إلى الكلام Openai ، بالإضافة إلى الوضع الصوتي لـ ChatGpt ، إلى إنشاء خطاب طبيعي يشبه السماعة الأصلية عن كثب. تقوم الأداة بتحويل الأحرف المكتوبة إلى الكلام ، والتي تقتصر فقط بواسطة بعض الدرابزين على المحتوى. لكنه كان عرضة للتأخير وتحويل نوافذ الإصدار من البداية.
كما أوضح Openai في منشور مدونة في يونيو 2024 ، يتعلم نموذج Voice Engine للتنبؤ بالأصوات الأكثر احتمالًا التي سيصنعها المتحدث لنص معين ، مع مراعاة الأصوات واللهجات وأنماط التحدث المختلفة. بعد ذلك ، لا يمكن للنموذج إنشاء إصدارات عن النص المنطوقة فحسب ، بل أيضًا “الكلمات المنطوقة” التي تعكس كيف يمكن أن تقرأ أنواع مختلفة من المتحدثين نصًا بصوت عالٍ.
كان Openai في البداية يهدف إلى إحضار محرك الصوت ، الذي يطلق عليه أصلاً الأصوات المخصصة ، إلى واجهة برمجة التطبيقات الخاصة به في 7 مارس 2024 ، وفقًا لمشروع مدونة تُرى بواسطة TechCrunch. كانت الخطة هي إعطاء مجموعة من ما يصل إلى 100 “مطور موثوق” قبل ظهور أوسع لاول مرة ، مع إعطاء الأولوية لتطبيقات بناء Devs التي وفرت “فائدة اجتماعية” أو أظهرت استخدامات “مبتكرة ومسؤولة” للتكنولوجيا. كان Openai قد وضع علامة تجارية وأسعارها: 15 دولارًا لكل مليون حرف للأصوات “القياسية” و 30 دولارًا لكل مليون شخص لأصوات “HD Quality”.
ثم ، في الساعة الحادية عشرة ، تأجلت الشركة الإعلان. انتهى Openai بالكشف عن محرك الصوت بعد بضعة أسابيع دون خيار التسجيل. وقال Openai إن الوصول إلى الأداة سيظل مقصورًا على مجموعة من حوالي 10 Devs التي بدأت الشركة في العمل معها في أواخر عام 2023.
وكتب Openai في مدونة إعلان Engine في أواخر مارس 2024: “نأمل أن نبدأ حوارًا حول النشر المسؤول للأصوات الاصطناعية وكيف يمكن للمجتمع التكيف مع هذه القدرات الجديدة.
طويل في الأعمال
كان محرك الصوت في الأعمال منذ عام 2022 ، وفقًا لـ Openai. تدعي الشركة أنها تجمع الأداة لـ “صانعي السياسات العالميين في أعلى المستويات” في صيف 2023 لعرض إمكاناتها – والمخاطر.
يمكن للعديد من الشركاء إمكانية الوصول إلى المحرك الصوتي اليوم ، بما في ذلك بدء التشغيل Livox ، والتي تقوم ببناء الأجهزة التي تمكن الأشخاص ذوي الإعاقة من التواصل بشكل طبيعي. أخبر الرئيس التنفيذي كارلوس بيريرا TechCrunch بينما لم يتمكن Livox في النهاية من بناء محرك صوت في منتج بسبب متطلبات الأداة عبر الإنترنت (العديد من عملاء Livox ليس لديهم الإنترنت) ، فقد وجد أن التكنولوجيا “رائعة حقًا”.
وقال بيريرا لـ TechCrunch عبر البريد الإلكتروني: “إن جودة الصوت وإمكانية جعل الأصوات التحدث بلغات مختلفة فريدة من نوعها – خاصة بالنسبة للأشخاص ذوي الإعاقة وعملائنا”. “إنها حقًا الأكثر إثارة للإعجاب وسهل الاستخدام [tool to] إنشاء أصوات رأيتها […] نأمل أن يقوم Openai بتطوير نسخة غير متصلة قريبًا. “
يقول Pereira إنه لم يتلق توجيهات من Openai حول إطلاق محرك صوتي محتمل ، ولم ير أي علامات تخطط الشركة للبدء في فرض رسوم على الخدمة. حتى الآن ، لم يضطر ليفوكس إلى دفع ثمن استخدامه.
في هذا المنصب المذكور أعلاه ، ألمح Openai إلى أن أحد اعتباراته في تأخير محرك الصوت هو إمكانية سوء المعاملة خلال دورة الانتخابات الأمريكية في العام الماضي. على علم من خلال المناقشات مع أصحاب المصلحة ، لدى Voice Engine العديد من تدابير السلامة المخففة ، بما في ذلك العلامة المائية لتتبع مصدر الصوت الذي تم إنشاؤه.
يجب على المطورين الحصول على “موافقة صريحة” من المتحدث الأصلي قبل استخدام المحرك الصوتي ، وفقًا لـ Openai ، ويجب عليهم إعداد “إفصاحات واضحة” لجمهورهم بأن الأصوات يتم توليدها. ومع ذلك ، لم تقول الشركة كيف تنفذ هذه السياسات. قد يكون القيام بذلك على نطاق واسع أمرًا صعبًا للغاية ، حتى بالنسبة لشركة ذات موارد Openai.
في منشورات المدونات الخاصة بها ، ضمنت Openai أيضًا أنها تأمل في بناء “تجربة مصادقة صوتية” للتحقق من المتحدثين وقائمة “عدم التنقل” التي تمنع إنشاء الأصوات التي تبدو مشابهة جدًا للأرقام البارزة. كلاهما مشاريع طموحة من الناحية التكنولوجية ، وسوف يعكس ذلك خطأً بشكل سيء على شركة غالبًا ما يتم اتهامها بتهميش مبادرات السلامة.
أصبحت التصفية الفعالة والتحقق من الهوية سريعة متطلبات خط الأساس للإصدارات التقنية للاستنساخ الصوتية المسؤولة. كان استنساخ صوت الذكاء الاصطناعي ثالث أسرع عملية احتيال نمو عام 2024 ، وفقًا لمصدر واحد. لقد أدى ذلك إلى تجاوز عمليات الاحتيال والشيكات الأمنية المصرفية حيث تكافح قوانين الخصوصية وحقوق الطبع والنشر من أجل مواكبة ذلك. استخدمت الجهات الفاعلة الضارة الاستنساخ الصوتي لإنشاء Deepfakes الحارقة من المشاهير والسياسيين ، وقد انتشرت تلك العميق مثل حريق الهشيم عبر وسائل التواصل الاجتماعي.
يمكن لـ Openai إطلاق محرك الصوت الأسبوع المقبل – أو أبدًا. قالت الشركة مرارًا وتكرارًا إنها تزن الحفاظ على الخدمة الصغيرة في نطاقها. ولكن هناك شيء واحد واضح: لأسباب البصريات ، أو أسباب السلامة ، أو كليهما ، أصبحت المعاينة المحدودة للمحرك الصوتي واحدة من أطول من تاريخ Openai.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.