يطلق Eleutherai مجموعة بيانات تدريب منظمة العفو الدولية الناتجة عن نص المجال المرخص والمفتوح

0 5 2 دقائق

يطلق Eleutherai مجموعة بيانات تدريب منظمة العفو الدولية الناتجة عن نص المجال المرخص والمفتوح

أصدرت Eleutherai ، وهي منظمة أبحاث منظمة العفو الدولية ، ما تدعي أنه واحد من أكبر مجموعات النص المرخص والمجال المفتوح لتدريب نماذج الذكاء الاصطناعي.

استغرقت مجموعة البيانات ، التي تسمى Pile V0.1 المشتركة ، حوالي عامين لإكمالها بالتعاون مع AI Startups Pool -Side ، وجهات المعانقة ، وغيرها ، إلى جانب العديد من المؤسسات الأكاديمية. في حجم 8 تيرابايت في الحجم ، تم استخدام الوبر الشائع V0.1 لتدريب نموذجين جديدين لمنظمة العفو الدولية من Eleutherai ، فاصلة V0.1-1T و Campa v0.1-2t ، التي تدعي Eleutherai أداءها على النماذج التي تم تطويرها باستخدام البيانات غير المخصصة لحقوق الطبع والنشر.

شركات الذكاء الاصطناعى ، بما في ذلك Openai ، متورطة في دعاوى قضائية بشأن ممارسات التدريب من الذكاء الاصطناعي ، والتي تعتمد على تجريد الويب – بما في ذلك المواد المحمية بحقوق الطبع والنشر مثل الكتب والمجلات البحثية – لبناء مجموعات بيانات التدريب النموذجية. في حين أن بعض شركات AI لديها ترتيبات ترخيص مع بعض مقدمي المحتوى ، فإن معظمهم يؤكدون أن العقيدة القانونية للولايات المتحدة للاستخدام العادل تحميها من المسؤولية في الحالات التي تدربوا فيها على العمل المحمي بحقوق الطبع والنشر دون إذن.

يجادل Eleutherai بأن هذه الدعاوى القضائية قد “انخفضت بشكل كبير” من شركات الذكاء الاصطناعي ، والتي تقول المنظمة إنها أضرت بمجال أبحاث الذكاء الاصطناعى الأوسع من خلال جعل من الصعب فهم كيفية عمل النماذج وما قد تكون عليه عيوبها.

“[Copyright] لم تتغير الدعاوى القضائية بشكل مفيد ممارسات مصادر البيانات في [model] كتب ستيلا بايدرمان ، المدير التنفيذي لـ Eleutherai ، في منشور مدونة على وجه المعانقة في وقت مبكر من يوم الجمعة ، “لقد خفضوا بشكل كبير من شركات الشفافية.

تم إنشاء الوبر الشائع V0.1 ، الذي يمكن تنزيله من منصة AI Dev الخاصة بـ Hugging Face و Github بالتشاور مع الخبراء القانونيين ، وهو يعتمد على مصادر بما في ذلك 300000 كتاب للمجال العام الرقمي بواسطة مكتبة الكونغرس وأرشيف الإنترنت. استخدم Eleutherai أيضًا Whisper ، طراز Openai Open Source Open-Toxt ، لنسخ محتوى الصوت.

eleutherai يدعي فاصلة v0.1-1t و comma v0.1-2t هي دليل على أن الوبر الشائع v0.1 قد تم تنسيقه بعناية بما يكفي لتمكين المطورين من بناء نماذج تنافسية مع بدائل الملكية. وفقًا لـ Eleutherai ، فإن النماذج ، وكلاهما يبلغ حجمه 7 مليارات من المعلمات وتم تدريبهم على جزء صغير فقط من الوبر الشائع V0.1 ، ونماذج منافسة مثل نموذج Llama AI الأول في Meta على معايير الترميز وفهم الصور والرياضيات.

المعلمات ، التي يشار إليها أحيانًا باسم الأوزان ، هي المكونات الداخلية لنموذج الذكاء الاصطناعي الذي يوجه سلوكه وإجاباته.

“بشكل عام ، نعتقد أن الفكرة الشائعة التي تفيد بأن النص غير المرخص يدفع الأداء غير مبرر” ، كتبت بيدرمان في منشورها. “مع نمو بيانات المجال العام المرخص علناً ، يمكننا أن نتوقع أن تحسن جودة النماذج المدربة على المحتوى المرخص بشكل علني.”

يبدو أن الوبر المشترك v0.1 هو في جزء من الجهد لتصحيح الأخطاء التاريخية لـ Eleutherai. منذ سنوات ، أصدرت الشركة كومة ، وهي مجموعة مفتوحة من نص التدريب تتضمن مواد محمية بحقوق الطبع والنشر. تعرضت شركات الذكاء الاصطناعى إلى إطلاق النار – والضغط القانوني – لاستخدام الكومة لتدريب النماذج.

تلتزم Eleutherai بإصدار مجموعات البيانات المفتوحة بشكل متكرر بشكل متكرر بالتعاون مع شركاء أبحاثها والبنية التحتية.

المصدر