[ad_1]
أصدرت Eleutherai ، وهي منظمة أبحاث منظمة العفو الدولية ، ما تدعي أنه واحد من أكبر مجموعات النص المرخص والمجال المفتوح لتدريب نماذج الذكاء الاصطناعي.
استغرقت مجموعة البيانات ، التي تسمى Pile V0.1 المشتركة ، حوالي عامين لإكمالها بالتعاون مع AI Startups Pool -Side ، وجهات المعانقة ، وغيرها ، إلى جانب العديد من المؤسسات الأكاديمية. في حجم 8 تيرابايت في الحجم ، تم استخدام الوبر الشائع V0.1 لتدريب نموذجين جديدين لمنظمة العفو الدولية من Eleutherai ، فاصلة V0.1-1T و Campa v0.1-2t ، التي تدعي Eleutherai أداءها على النماذج التي تم تطويرها باستخدام البيانات غير المخصصة لحقوق الطبع والنشر.
شركات الذكاء الاصطناعى ، بما في ذلك Openai ، متورطة في دعاوى قضائية بشأن ممارسات التدريب من الذكاء الاصطناعي ، والتي تعتمد على تجريد الويب – بما في ذلك المواد المحمية بحقوق الطبع والنشر مثل الكتب والمجلات البحثية – لبناء مجموعات بيانات التدريب النموذجية. في حين أن بعض شركات AI لديها ترتيبات ترخيص مع بعض مقدمي المحتوى ، فإن معظمهم يؤكدون أن العقيدة القانونية للولايات المتحدة للاستخدام العادل تحميها من المسؤولية في الحالات التي تدربوا فيها على العمل المحمي بحقوق الطبع والنشر دون إذن.
يجادل Eleutherai بأن هذه الدعاوى القضائية قد “انخفضت بشكل كبير” من شركات الذكاء الاصطناعي ، والتي تقول المنظمة إنها أضرت بمجال أبحاث الذكاء الاصطناعى الأوسع من خلال جعل من الصعب فهم كيفية عمل النماذج وما قد تكون عليه عيوبها.
“[Copyright] لم تتغير الدعاوى القضائية بشكل مفيد ممارسات مصادر البيانات في [model] كتب ستيلا بايدرمان ، المدير التنفيذي لـ Eleutherai ، في منشور مدونة على وجه المعانقة في وقت مبكر من يوم الجمعة ، “لقد خفضوا بشكل كبير من شركات الشفافية.
تم إنشاء Pile V0.1 المشترك ، الذي يمكن تنزيله من منصة Hugging Face’s AI Dev و Github ، بالتشاور مع الخبراء القانونيين ، وهو يعتمد على مصادر ، بما في ذلك 300000 كتاب للمجال العام الرقمي بواسطة مكتبة الكونغرس وأرشيف الإنترنت. استخدم Eleutherai أيضًا Whisper ، نموذج الكلام إلى النص المفتوح المصدر Openai ، لنسخ محتوى الصوت.
eleutherai يدعي فاصلة v0.1-1t و comma v0.1-2t هي دليل على أن الوبر الشائع v0.1 قد تم تنسيقه بعناية بما يكفي لتمكين المطورين من بناء نماذج تنافسية مع بدائل الملكية. وفقًا لـ Eleutherai ، فإن النماذج ، وكلاهما يبلغ حجمه 7 مليارات من المعلمات وتم تدريبهم على جزء صغير فقط من الوبر الشائع V0.1 ، ونماذج منافسة مثل نموذج Llama AI الأول في Meta على معايير الترميز وفهم الصور والرياضيات.
المعلمات ، التي يشار إليها أحيانًا باسم الأوزان ، هي المكونات الداخلية لنموذج الذكاء الاصطناعي الذي يوجه سلوكه وإجاباته.
“بشكل عام ، نعتقد أن الفكرة الشائعة التي تفيد بأن النص غير المرخص يدفع الأداء غير مبرر” ، كتبت بيدرمان في منشورها. “مع نمو بيانات المجال العام المرخص علناً ، يمكننا أن نتوقع أن تحسن جودة النماذج المدربة على المحتوى المرخص بشكل علني.”
يبدو أن الوبر المشترك v0.1 هو في جزء من الجهد لتصحيح الأخطاء التاريخية لـ Eleutherai. منذ سنوات ، أصدرت الشركة كومة ، وهي مجموعة مفتوحة من نص التدريب تتضمن مواد محمية بحقوق الطبع والنشر. تعرضت شركات الذكاء الاصطناعى إلى إطلاق النار – والضغط القانوني – لاستخدام الكومة لتدريب النماذج.
تلتزم Eleutherai بإصدار مجموعات البيانات المفتوحة بشكل متكرر بشكل متكرر بالتعاون مع شركاء أبحاثها والبنية التحتية.
تم تحديثه 9:48 صباحًا باسيفيك: أوضح Biderman في منشور على X أن Eleutherai ساهم في إصدار مجموعات البيانات والنماذج ، لكن تطورها شمل العديد من الشركاء ، بما في ذلك جامعة تورونتو ، مما ساعد على قيادة البحث.
Source link
اكتشاف المزيد من مؤسسة اشراق العالم لتقنية المعلومات-خدمات مواقع ومتاجر الإنترنت
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.