تعاونت MLCommons ، وهي مجموعة عمل غير ربحية للسلامة منظمة العفو الدولية ، مع منصة AI Dev التي تعانق لإصدار واحدة من أكبر مجموعات التسجيلات الصوتية لمجال العام في العالم لأبحاث الذكاء الاصطناعي.
تحتوي مجموعة البيانات ، التي تسمى خطاب الأشخاص غير الخاضعين للإشراف ، على أكثر من مليون ساعة من الصوت التي تمتد على الأقل 89 لغة مختلفة. يقول MLCommons إنه كان من المفترض إنشاءه من خلال الرغبة في دعم البحث والتطوير في “مجالات مختلفة من تكنولوجيا الكلام”.
وكتبت المنظمة في منشور مدونة يوم الخميس: “إن دعم أبحاث معالجة اللغة الطبيعية الأوسع للغات غير الإنجليزية يساعد في جلب تقنيات الاتصال إلى المزيد من الأشخاص على مستوى العالم”. “نتوقع أن تستمر العديد من السبل لمجتمع الأبحاث في بناء وتطوير ، وخاصة في مجالات تحسين نماذج الكلام اللغوية منخفضة الموارد ، وتعزيز التعرف على الكلام عبر لهجات ولهجات مختلفة ، والتطبيقات الجديدة في تخليق الكلام.”
إنه هدف مثير للإعجاب ، بالتأكيد. لكن مجموعات بيانات الذكاء الاصطناعى مثل خطاب الأشخاص غير الخاضعين للإشراف يمكن أن تحمل مخاطر للباحثين الذين يختارون استخدامها.
البيانات المتحيزة هي واحدة من تلك المخاطر. جاءت التسجيلات في خطاب الأشخاص غير الخاضعين للإشراف من Archive.org ، وربما تشتهر المنظمات غير الربحية بأداة أرشيف ويب Wayback Machine. نظرًا لأن العديد من المساهمين في Archive.org يتحدثون باللغة الإنجليزية-والأمريكيين-جميع التسجيلات في خطاب الأشخاص غير الخاضعين للإشراف في اللغة الإنجليزية المعروضة على أمريكا ، وفقًا لصفحة المشروع الرسمية.
هذا يعني أنه دون تصفية دقيقة ، فإن أنظمة الذكاء الاصطناعي مثل التعرف على الكلام ونماذج مزج الصوت التي تم تدريبها على خطاب الأشخاص غير الخاضعين للإشراف يمكن أن تظهر بعضًا من نفس التحيزات. قد يكافحون ، على سبيل المثال ، من أجل نسخ اللغة الإنجليزية التي يتحدث بها متحدث غير أصلي ، أو يواجهون مشكلة في توليد أصوات اصطناعية بلغات أخرى غير اللغة الإنجليزية.
قد يحتوي خطاب الأشخاص غير الخاضعين للإشراف أيضًا على تسجيلات من أشخاص غير مدركين أن أصواتهم تستخدم لأغراض البحث في الذكاء الاصطناعي – بما في ذلك التطبيقات التجارية. بينما تقول MLCommons أن جميع التسجيلات في مجموعة البيانات هي المجال العام أو متاحًا بموجب تراخيص Creative Commons ، إلا أن هناك أخطاء إمكانية.
وفقًا لتحليل معهد ماساتشوستس للتكنولوجيا ، تفتقر المئات من مجموعات بيانات تدريب الذكاء الاصطناعى المتاحة للجمهور إلى معلومات الترخيص وتحتوي على أخطاء. لقد جعل دعاة المبدعون بما في ذلك إد نيوتن-ريكس ، الرئيس التنفيذي لشركة AI التي تركز على الأخلاقيات غير الربحية المدربة بشكل عادل ، قضية أنه لا ينبغي أن يُطلب من المبدعين “إلغاء الاشتراك” في مجموعات بيانات الذكاء الاصطناعى بسبب عبء الشاقة التي تفرض على هؤلاء المبدعين .
“العديد من المبدعين (على سبيل المثال مستخدمو Squarespace) ليس لديهم طريقة ذات مغزى للاختراق” ، كتب نيوتن ريكس في منشور في X في يونيو الماضي. “للمبدعين الذين يستطيع إلغاء الاشتراك ، هناك العديد من أساليب إلغاء الاشتراك المتداخلة ، والتي (1) مربكة بشكل لا يصدق و (2) غير مكتملة بشكل محزن في تغطيتها. حتى إذا كان هناك عملية إلغاء الاشتراك الشاملة المثالية ، فسيكون من غير العادل للغاية وضع عبء إلغاء الاشتراك على المبدعين ، بالنظر إلى أن الذكاء الاصطناعى التوليدي يستخدم عملهم للتنافس معهم-لم يدرك الكثيرون ببساطة أنهم يمكنهم إلغاء الاشتراك “.
يقول MLCommons إنه ملتزم بتحديث وصيانة وتحسين جودة خطاب الأشخاص غير الخاضعين للإشراف. ولكن بالنظر إلى العيوب المحتملة ، فإنه من المفترض أن يمارسوا حذرًا خطيرًا.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.