تبرز ملفات المحكمة أن الموظفين Meta ناقشوا استخدام المحتوى المحمي بحقوق الطبع والنشر لتدريب الذكاء الاصطناعى

eshrag فبراير 21, 2025

0 19 4 دقائق

تبرز ملفات المحكمة أن الموظفين Meta ناقشوا استخدام المحتوى المحمي بحقوق الطبع والنشر لتدريب الذكاء الاصطناعى

لسنوات ، ناقش موظفو META داخليًا باستخدام أعمال محمية بحقوق الطبع والنشر التي تم الحصول عليها من خلال وسائل مشكوك فيها قانونًا لتدريب نماذج AI للشركة ، وفقًا لوثائق المحكمة التي تم إلغاؤها يوم الخميس.

تم تقديم المستندات من قبل المدعين في القضية Kadrey v. Meta ، واحدة من العديد من نزاعات حقوق النشر منظمة العفو الدولية التي تعود ببطء عبر نظام المحاكم الأمريكية. يدعي المدعى عليه ، Meta ، أن نماذج التدريب على الأعمال المحمية IP ، وخاصة الكتب ، هي “الاستخدام العادل”. المدعون ، الذين من بين المؤلفين سارة سيلفرمان و Ta-Nehisi Coates ، لا يوافقون.

زعمت المواد السابقة المقدمة في الدعوى أن المدير التنفيذي لشركة Meta Mark Zuckerberg أعطى فريق Meta AI OK للتدريب على المحتوى المحمي بحقوق الطبع والنشر وأن Meta أوقفت محادثات ترخيص بيانات التدريب من الذكاء الاصطناعي مع ناشري الكتب. لكن الإيداعات الجديدة ، التي تعرض معظمها أجزاء من الدردشة الداخلية بين موظفي Meta ، ترسم أوضح صورة حتى الآن عن كيفية استخدام Meta لاستخدام البيانات المحمية بحقوق الطبع والنشر لتدريب نماذجها ، بما في ذلك النماذج في عائلة Llama للشركة.

في إحدى الدردشة ، ناقش موظفو Meta ، بمن فيهم ميلاني كامبدور ، المدير الأول لفريق أبحاث Meta في Llama ، نماذج التدريب على الأعمال التي عرفوا أنها قد تكون محفورة قانونًا.

“[M]كتب كزافييه مارتينيت ، مهندس أبحاث ميتا ، في دردشة مؤرخة في خط “اسأل الغفران ، وليس للحصول على إذن”): نحاول الحصول على الكتب وتصعيدها إلى التنفيذيين حتى يقوموا بالمكالمة “. فبراير 2023 ، وفقا للملاعب. “[T]له لماذا قاموا بإعداد هذا Gen AI Org لـ [sic]: لذلك يمكننا أن نكون أقل من المخاطرة. “

طرح Martinet فكرة شراء الكتب الإلكترونية بأسعار التجزئة لبناء مجموعة تدريب بدلاً من قطع صفقات الترخيص مع ناشري الكتب الفردية. بعد أن أشار موظف آخر إلى أن استخدام المواد غير المصرح بها وحقوق الطبع والنشر قد تكون أسبابًا لتحدي قانوني ، تضاعف مارتينيت ، بحجة أن الشركات الناشئة “Gazillion” ربما تستخدم بالفعل كتبًا مقرصنة للتدريب.

“أقصد ، أسوأ حالة: اكتشفنا أنه على ما يرام أخيرًا ، في حين أن Gazillion تبدأ [sic] كتب مارتينيت ، “مجرد الكثير من الكتب على BitTorrent”. “[M]Y 2 سنت مرة أخرى: محاولة عقد صفقات مع الناشرين تستغرق وقتًا طويلاً … “

في نفس الدردشة ، حذر Kambadur ، الذي أشار إلى أن Meta كان في محادثات مع منصة استضافة المستضافة Scribd “وغيرها” للتراخيص ، من أنه أثناء استخدام “البيانات المتاحة للجمهور” للتدريب النموذجي سيتطلب موافقات ، كان محامو Meta “أقل تحفظًا” من لقد كانوا في الماضي مع مثل هذه الموافقات.

“نعم ، نحن بالتأكيد بحاجة إلى الحصول على تراخيص أو موافقات على البيانات المتاحة للجمهور ،” قال كامبدور ، وفقًا للملاعب. “[D]Ifference الآن هو أن لدينا المزيد من المال ، والمزيد من المحامين ، والمزيد من مساعدة Bizdev ، والقدرة على التتبع/التصعيد السريع للسرعة ، والمحامون أقل تحفظًا قليلاً على الموافقات. “

محادثات Libgen

في محادثة عمل أخرى تم نقلها في الإيداعات ، يناقش Kambadur استخدام Libgen ، وهو “مجمع روابط” يوفر الوصول إلى الأعمال المحمية بحقوق الطبع والنشر من الناشرين ، كبديل لمصادر البيانات التي قد يرخصها Meta.

تم مقاضاة Libgen عدة مرات ، وأمر بإغلاق ، وغرامة عشرات الملايين من الدولارات لانتهاك حقوق الطبع والنشر. استجاب أحد زملاء Kambadur مع لقطة شاشة لنتيجة بحث Google عن Libgen التي تحتوي على مقتطف “لا ، Libgen ليس قانونيًا”.

يبدو أن بعض صانعي القرار داخل META كانا تحت انطباع بأن الفشل في استخدام Libgen للتدريب النموذجي يمكن أن يضر بشكل خطير بقدرة Meta في سباق الذكاء الاصطناعى ، وفقًا للملاعب.

في رسالة بريد إلكتروني موجهة إلى META AI VP Joelle Pineau ، سوني Theakanath ، مديرة إدارة المنتجات في Meta ، والتي تسمى Libgen “ضرورية لتلبية أرقام SOTA في جميع الفئات” ، في إشارة إلى أفضل ما في حالة ما هو أحدث (SOTA) نماذج الذكاء الاصطناعي والفئات القياسية.

أوضحت Theakanath أيضًا “التخفيفات” في البريد الإلكتروني تهدف إلى المساعدة في تقليل التعرض القانوني لـ Meta ، بما في ذلك إزالة البيانات من Libgen “بوضوح ملحوظ على أنها مقرصنة/سرقت” وأيضًا لا تشير إلى الاستخدام علنًا. “لن نكشف عن استخدام مجموعات بيانات Libgen المستخدمة للتدريب” ، كما قال Theakanath.

في الممارسة العملية ، استلزم هذه التخفيفات تمشيط من خلال ملفات libgen للكلمات مثل “Stolen” أو “Pirated” ، وفقًا للملفات.

في محادثة عمل ، ذكر Kambadur أن فريق Meta من الذكاء الاصطناعى قد قام أيضًا بضبط النماذج على “تجنب مطالبات IP محفوفة بالمخاطر” – أي تكوين النماذج لرفض الإجابة على أسئلة مثل “إعادة إنتاج الصفحات الثلاث الأولى من” Harry Potter و Sorcerer’s Stone “أو “أخبرني عن الكتب الإلكترونية التي تدربت عليها.”

تحتوي الإيداعات على كشف آخر ، مما يعني أن META قد تكون قد قامت بتخليص بيانات Reddit لنوع من التدريب النماذج ، ربما عن طريق محاكاة سلوك تطبيق تابع لجهة خارجية يسمى Pushift. والجدير بالذكر أن Reddit قال في أبريل 2023 إنه خطط للبدء في شحن شركات الذكاء الاصطناعى للوصول إلى البيانات للتدريب النموذجي.

في إحدى الدردشة المؤرخة في مارس 2024 ، قالت تشايا ناياك ، مديرة إدارة المنتجات في AI org التوليدي من META ، إن قيادة META كانت تفكر في القرارات السابقة “الإفراط” بشأن بيانات التدريب ، بما في ذلك قرار بعدم استخدام محتوى Quora أو الكتب المرخصة والمقالات العلمية ، لضمان أن نماذج الشركة لديها بيانات تدريب كافية.

أشار Nayak إلى أن مجموعات بيانات التدريب على الطرف الأول من Meta-منشورات Facebook و Instagram ، ونصوص على مقاطع الفيديو على منصات التعريف ، وبعض التعريف لرسائل العمل-لم تكن ببساطة كافية. “[W]E بحاجة إلى مزيد من البيانات “.

قام المدعون في قضية Kadrey v. Meta بتعديل شكواهم عدة مرات منذ أن تم تقديم القضية في محكمة المقاطعة الأمريكية للمنطقة الشمالية في كاليفورنيا ، قسم سان فرانسيسكو ، في عام 2023. يزعم آخر أن Meta ، من بين مطالبات أخرى ، مرجعية بعض الكتب المقرصنة مع كتب محمية بحقوق الطبع والنشر المتاحة للترخيص لتحديد ما إذا كان من المنطقي متابعة اتفاقية ترخيص مع ناشر.

في علامة على كيفية اعتبار Meta المرتفع أن المخاطر القانونية ، أضافت الشركة اثنين من محامي المحكمة العليا من مكتب المحاماة بول فايس إلى فريق الدفاع في القضية.

لم ترد Meta على الفور على طلب للتعليق.

المصدر