تقوم Openai بتقديم نماذج جديدة للنسخ وتوليد الصوت إلى API التي تدعي الشركة أن تتحسن في إصداراتها السابقة.
بالنسبة لـ Openai ، تتناسب النماذج مع رؤيتها “Agentic” الأوسع: بناء أنظمة آلية يمكنها إنجاز المهام بشكل مستقل نيابة عن المستخدمين. قد يكون تعريف “الوكيل” في نزاع ، لكن رئيس منتج Openai Olivier Godement وصف تفسيرًا واحدًا بأنه chatbot يمكنه التحدث مع عملاء الشركة.
“سنرى المزيد والمزيد من الوكلاء يطفوون في الأشهر المقبلة” ، أخبر Godement TechCrunch خلال إحاطة. “وبالتالي فإن الموضوع العام يساعد العملاء والمطورين على الاستفادة من الوكلاء المفيدين والمتاحين والدقيق.”
يدعي Openai أن نموذج النص إلى الكلام الجديد ، “GPT-4O-Mini-TTS” ، لا يوفر خطابًا أكثر دقة وواقعية ولكنه أيضًا “أكثر قابلية” من نماذج التزامات الكلام السابقة. يمكن للمطورين إرشاد GPT-4O-Mini-TTS حول كيفية قول الأشياء باللغة الطبيعية-على سبيل المثال ، “تحدث مثل عالم مجنون” أو “استخدم صوتًا هادئًا ، مثل معلم الذهن”.
إليكم صوت “على غرار الجريمة الحقيقي”:
وهنا عينة من صوت “احترافي” أنثى:
أخبر جيف هاريس ، وهو عضو في موظفي المنتج في Openai ، TechCrunch أن الهدف هو السماح للمطورين بتكييف كل من “تجربة” الصوت و “السياق”.
وقال هاريس: “في سياقات مختلفة ، لا تريد فقط صوتًا مسطحًا ورتابة”. “إذا كنت في تجربة دعم العملاء وتريد أن يكون الصوت اعتذاريًا لأنه ارتكب خطأً ، فيمكنك في الواقع أن يكون لديك صوت يتمتع به هذه المشاعر … إيماننا الكبير ، هنا ، هو أن المطورين والمستخدمين يريدون التحكم حقًا ، ليس فقط ما يتم التحدث به ، ولكن كيف يتم التحدث بالأشياء.”
أما بالنسبة لنماذج Openai الجديدة للكلام إلى النص ، فإن “GPT-4O Transcribe” و “GPT-4O-Mini-Ranscribe” ، يحلون بفعالية محل نموذج النسخ الهمس الطويل في الشركة. تدرب على “مجموعات بيانات صوتية عالية الجودة عالية الجودة” ، يمكن للموديلات الجديدة التقاط خطاب معلم ومتنوع بشكل أفضل ، ومطالبات Openai ، حتى في البيئات الفوضوية.
وأضاف هاريس أنهم أقل عرضة للهلوسة. كان الهمس يميل إلى تصنيع الكلمات – وحتى الممرات الكاملة – في المحادثات ، وإدخال كل شيء من التعليقات العنصرية إلى العلاجات الطبية المتخيلة إلى نصوص.
“[T]وقال هاريس: “تم تحسين نماذج Hese إلى حد كبير مقابل هذا الجبهة. التأكد من أن النماذج دقيقة أمر ضروري تمامًا للحصول على تجربة صوتية موثوقة ودقيقة [in this context] يعني أن النماذج تسمع الكلمات بدقة [and] لا تملأ التفاصيل التي لم يسمعوا بها. “
ومع ذلك ، قد يختلف عدد الأميال الخاصة بك اعتمادًا على اللغة التي يتم نسخها.
وفقًا للمعايير الداخلية لـ Openai ، فإن GPT-4O Transcripts ، وهو أكثر دقة بين نموذجين للنسخ ، له “معدل خطأ في الكلمات” يقترب من 30 ٪ (من أصل 120 ٪) لللغات المؤديرة والدرافيديان مثل التاميل ، التيلجو ، المالايالام ، الكانادا. وهذا يعني أن ثلاث كلمات من كل 10 كلمات من النموذج ستختلف عن النسخ البشري في تلك اللغات.
في استراحة من التقليد ، لا يخطط Openai لإتاحة نماذج النسخ الجديدة علانية. أصدرت الشركة تاريخيا إصدارات جديدة من Whisper للاستخدام التجاري بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.
قال هاريس إن GPT-4O Transcribe و GPT-4O-Mini-Ranscribe “أكبر بكثير من الهمس” وبالتالي ليسوا مرشحين جيدين لإصدار مفتوح.
“[T]لم يكن نوع النموذج الذي يمكنك تشغيله محليًا على جهاز الكمبيوتر المحمول الخاص بك ، مثل Whisper “.[W]نريد أن تتأكد من أننا إذا نطلقنا الأمور في مفتوح المصدر ، فنحن نفعل ذلك بعناية ، ولدينا نموذج يتم شحذه حقًا لهذه الحاجة المحددة. ونعتقد أن أجهزة المستخدم النهائي هي واحدة من أكثر الحالات إثارة للاهتمام لنماذج المصدر المفتوح. “
تم تحديثه في 20 مارس 2025 ، 11:54 صباحًا PT لتوضيح اللغة حول معدل خطأ الكلمات وتحديث مخطط النتائج القياسية مع إصدار أكثر حداثة.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.