ضرب LLMs مفتوح المصدر خريطة طريق السيادة الرقمية في أوروبا

eshrag فبراير 16, 2025

0 15 8 دقائق

ضرب LLMs مفتوح المصدر خريطة طريق السيادة الرقمية في أوروبا

هبطت نماذج اللغة الكبيرة (LLMS) على أجندة السيادة الرقمية في أوروبا مع ضجة الأسبوع الماضي ، حيث ظهرت أخبار لبرنامج جديد لتطوير سلسلة من LLMs Open Source Open “حقًا” تغطي جميع لغات الاتحاد الأوروبي.

ويشمل ذلك لغات الاتحاد الأوروبي الرسمية الـ 24 الحالية ، وكذلك لغات البلدان التي تتفاوض حاليًا للدخول إلى سوق الاتحاد الأوروبي ، مثل ألبانيا. المقاومة المستقبلية هي اسم اللعبة.

OpeneUrollm هو تعاون بين حوالي 20 منظمة ، يقودها جان هاجي ، وهي لغوية حسابية من جامعة تشارلز في براغ ، وبيتر سارلين ، الرئيس التنفيذي والمؤسس المشارك لشركة AI Lab Silo AI ، التي اكتسبتها AMD العام الماضي مقابل 665 مليون دولار .

يناسب المشروع رواية أوسع شهدت أن أوروبا تدفع السيادة الرقمية كأولوية ، مما يتيح له جعل البنية التحتية المهمة والأدوات أقرب إلى المنزل. يستثمر معظم عمالقة السحابة في البنية التحتية المحلية لضمان بقاء بيانات الاتحاد الأوروبي محليًا ، في حين كشفت AI Darling Openai مؤخرًا عن عرض جديد يتيح للعملاء معالجة وتخزين البيانات في أوروبا.

في مكان آخر ، وقع الاتحاد الأوروبي مؤخرًا صفقة بقيمة 11 مليار دولار لإنشاء كوكبة قمر صناعي سيادي لمنافستها Elon Musk’s Starlink.

لذا فإن Openeurollm بالتأكيد على العلامة التجارية.

ومع ذلك ، فإن الميزانية المعلنة فقط لبناء النماذج نفسها هي 37.4 مليون يورو ، مع ما يقرب من 20 مليون يورو من برنامج أوروبا الرقمية للاتحاد الأوروبي – انخفاض في المحيط مقارنة بما يستثمره عمالقة عالم الذكاء الاصطناعي. تكون الميزانية الفعلية أكثر عندما تكون عاملًا في التمويل المخصص للعمل العرضي والمتعاملات ، ويمكن القول إن أكبر حساب هو حساب. من بين شركاء مشروع Openeurollm ، يشمل مراكز الحاسبات الفائقة EuroHPC في إسبانيا وإيطاليا وفنلندا وهولندا – ويبلغ مشروع EuroHPC الأوسع نطاقًا حوالي 7 مليارات يورو.

لكن العدد الهائل من الأطراف المشاركة المتباينة ، التي تمتد إلى الأوساط الأكاديمية ، والأبحاث ، والشركات ، قاد الكثير إلى التساؤل عما إذا كانت أهدافها قابلة للتحقيق. وتساءل أناستازيا ستاسينكو ، المؤسس المشارك لشركة LLM Pleias ، عما إذا كانت “اتحادات المترامية الأطراف التي تضم أكثر من 20 منظمة” يمكن أن يكون لها نفس التركيز المقيس لشركة AI الخاصة المحلية.

وكتب ستاسينكو: “تتألق نجاحات أوروبا الأخيرة في منظمة العفو الدولية من خلال فرق صغيرة مركزة مثل Mistral AI و Lighton – الشركات التي تملك حقًا ما يبنونه”. “إنهم يتحملون مسؤولية فورية عن اختياراتهم ، سواء في الشؤون المالية ، أو تحديد المواقع في السوق ، أو السمعة”.

حتى الخدش

يبدأ مشروع Openeurollm إما من نقطة الصفر أو له بداية الرأس – اعتمادًا على كيفية نظرتك إليه.

منذ عام 2022 ، قام Hajič أيضًا بتنسيق مشروع تقنيات اللغة عالية الأداء (HPLT) ، والذي تم تعيينه لتطوير مجموعات البيانات والموديلات وسير العمل المجانية والقابلة لإعادة الاستخدام باستخدام الحوسبة عالية الأداء (HPC). من المقرر أن ينتهي هذا المشروع في أواخر عام 2025 ، ولكن يمكن اعتباره نوعًا من “سلف” إلى Openeurollm ، وفقًا لـ Hajič ، بالنظر إلى أن معظم الشركاء على HPLT (إلى جانب شركاء المملكة المتحدة) يشاركون هنا أيضًا.

“هذا [OpenEuroLLM] وقال هاجي: “لذلك ، لا يبدأ من الصفر من حيث البيانات والخبرة والأدوات وخبرة حساب. لقد قمنا بتجميع الأشخاص الذين يعرفون ما يفعلونه – يجب أن نكون قادرين على الوصول إلى السرعة بسرعة. “

قال حاجي إنه يتوقع إصدار الإصدار (الإصدار) الأول بحلول منتصف عام 2016 ، مع وصول التكرار النهائي (التوتر) في عام 2028. لكي تتجاوز ملف تعريف github العاري.

“في هذا الصدد ، بدأنا من الصفر – بدأ المشروع يوم السبت [February 1]قال هاجي. “لكننا نعد المشروع لمدة عام [the tender process opened in February 2024]”

من الأوساط الأكاديمية والأبحاث ، تعد المنظمات التي تمتد لتشيكيا وهولندا وألمانيا والسويد وفنلندا والنرويج جزءًا من مجموعة Openeurollm ، بالإضافة إلى مراكز EuroHPC. من عالم الشركات ، توجد Silo Lab Silo AI المملوكة لـ AMD في فنلندا على متنها ، وكذلك أليف ألفا (ألمانيا) ، وإيلاميند (ألمانيا) ، وهندسة لغة prompsit (إسبانيا) ، وليتون (فرنسا).

أحد الإغفال الملحوظ من القائمة هو معرض AI Unicorn Mistral ، الذي وضع نفسه كبديل مفتوح المصدر لشاغلي الوظائف مثل Openai. في حين أن لا أحد من Mistral لم يستجب لـ TechCrunch للتعليق ، فقد أكد Hajič أنه حاول بدء محادثات مع بدء التشغيل ، ولكن دون جدوى.

وقال حاجي: “حاولت التعامل معهم ، لكن ذلك لم يؤدي إلى مناقشة مركزة حول مشاركتهم”.

لا يزال بإمكان المشروع جمع مشاركين جدد كجزء من برنامج الاتحاد الأوروبي الذي يوفر تمويلًا ، على الرغم من أنه سيقتصر على منظمات الاتحاد الأوروبي. هذا يعني أن كيانات من المملكة المتحدة وسويسرا لن تتمكن من المشاركة. هذا يطير على عكس برنامج Horizon R&D ، الذي انضم إليه المملكة المتحدة في عام 2023 بعد مسدود طويل من خروج بريطانيا من الاتحاد الأوروبي والذي قدم تمويلًا لـ HPLT.

إنشاء

هدف المشروع في الخط الأعلى ، وفقًا لسطر الوصف الخاص به ، هو إنشاء: “سلسلة من نماذج الأساس للذكاءات الشفافة في أوروبا”. بالإضافة إلى ذلك ، يجب أن تحافظ هذه النماذج على “التنوع اللغوي والثقافي” لجميع لغات الاتحاد الأوروبي – الحالية والمستقبلية.

لا يزال هذا ما يترجم إليه من حيث التسليمات يتم تسويته ، ولكن من المحتمل أن يعني ذلك LLM متعددة اللغات الأساسية المصممة للمهام للأغراض العامة حيث تكون الدقة ذات أهمية قصوى. ثم أيضًا إصدارات “كمية” أصغر ، ربما لتطبيقات الحافة حيث تكون الكفاءة والسرعة أكثر أهمية.

وقال هاجي: “هذا شيء لا يزال يتعين علينا وضع خطة مفصلة عنه”. “نريد أن نكون صغارًا ولكنه عالي الجودة قدر الإمكان. لا نريد إصدار شيء ما هو نصف مخبوز ، لأنه من وجهة نظر أوروبية هذه المخاطر العالية ، مع الكثير من الأموال من المفوضية الأوروبية-الأموال العامة. “

في حين أن الهدف من ذلك هو جعل النموذج يتقن قدر الإمكان في جميع اللغات ، فإن تحقيق المساواة في جميع المجالات قد يكون تحديًا.

وقال هاجي: “هذا هو الهدف ، لكن مدى نجاحنا مع اللغات ذات الموارد الرقمية النادرة هو السؤال”. “ولكن لهذا السبب نريد أن نكون لدينا معايير حقيقية لهذه اللغات ، وعدم التأثير على المعايير التي ربما لا تمثل اللغات والثقافة وراءها”.

فيما يتعلق بالبيانات ، هذا هو المكان الذي سيثبت فيه الكثير من العمل من مشروع HPLT مثمرًا ، مع إصدار الإصدار 2.0 من مجموعة البيانات الخاصة به قبل أربعة أشهر. تم تدريب مجموعة البيانات هذه على 4.5 بيتيت من زحفات الويب وأكثر من 20 مليار وثيقة ، وقال حاجي أنها ستضيف بيانات إضافية من الزحف الشائع (مستودع مفتوح للبيانات المتجول على شبكة الإنترنت) إلى هذا المزيج.

تعريف المصدر المفتوح

في البرامج التقليدية ، يدور النضال الدائم بين المصدر المفتوح والملكية حول المعنى “الحقيقي” لـ “المصدر المفتوح”. يمكن حل ذلك عن طريق التأجيل إلى “التعريف” الرسمي وفقًا لمبادرة المصدر المفتوح ، ومرعو الصناعة لما هو وليست تراخيص المصادر المفتوحة المشروعة.

في الآونة الأخيرة ، شكلت OSI تعريفًا لـ “Open Source AI” ، على الرغم من أنه ليس الجميع سعداء بالنتيجة. يجادل مؤيدو AI مفتوح المصدر بأنه لا ينبغي أن تكون النماذج متاحة مجانًا ، ولكن أيضًا مجموعات البيانات والنماذج المسبقة والأوزان – Shebang الكاملة. لا يجعل تعريف OSI بيانات التدريب إلزامية ، لأنه يقول أن نماذج الذكاء الاصطناعى غالبًا ما يتم تدريبها على بيانات الملكية أو البيانات مع قيود إعادة التوزيع.

يكفي أن نقول ، إن Openeurollm تواجه هذه المأمانات نفسها ، وعلى الرغم من نواياه “مفتوحة حقًا” ، فمن المحتمل أن تضطر إلى تقديم بعض التسويات إذا كانت تلبية التزاماتها “الجودة”.

الهدف هو أن يكون كل شيء مفتوحًا. الآن ، بالطبع ، هناك بعض القيود. “نريد أن يكون لدينا نماذج من أعلى جودة ممكنة ، وبناءً على توجيه حقوق الطبع والنشر الأوروبية ، يمكننا استخدام أي شيء يمكننا الحصول عليه. لا يمكن إعادة توزيع بعضها ، ولكن يمكن تخزين بعضها للتفتيش المستقبلي. “

ما يعنيه هذا هو أن مشروع Openeurollm قد يضطر إلى الحفاظ على بعض بيانات التدريب تحت اللف ، ولكن يتم توفيره لمراجعي الحسابات عند الطلب-كما هو مطلوب لأنظمة الذكاء الاصطناعى عالية الخطورة بموجب شروط قانون الاتحاد الأوروبي.

“نأمل أن معظم البيانات [will be open]، لا سيما البيانات القادمة من الزحف المشترك. “نود أن نفتح كل شيء تمامًا ، لكننا سنرى. في أي حال ، سيتعين علينا الامتثال لأنظمة الذكاء الاصطناعي. “

اثنان واحد

وكان الانتقادات الأخرى التي ظهرت في أعقاب كشف النقاب الرسمي من Openeurollm أن مشروعًا مشابهًا جدًا تم إطلاقه في أوروبا قبل بضعة أشهر قصيرة. تتم تمويل Eurollm ، الذي أطلق أول نموذج لها في سبتمبر ومتابعة في ديسمبر ، من قبل الاتحاد الأوروبي إلى جانب كونسورتيوم من تسعة شركاء. وتشمل هذه المؤسسات الأكاديمية مثل جامعة إدنبرة وشركات مثل Unclabel ، والتي فازت العام الماضي ملايين ساعات التدريب على وحدة معالجة الرسومات في الاتحاد الأوروبي.

تشارك Eurollm أهدافًا مشابهة لأهدافها القريبة من الأسماك: “لبناء نموذج لغة أوروبية مفتوح المصدر يدعم 24 لغة أوروبية رسمية ، وعدد قليل من اللغات الأخرى ذات الأهمية الاستراتيجية.”

انتقل أندريه مارتينز ، رئيس الأبحاث في UNBABEL ، إلى وسائل التواصل الاجتماعي لتسليط الضوء على أوجه التشابه هذه ، مشيرًا إلى أن Openeurollm تخصم اسمًا موجودًا بالفعل. وكتب مارتينز: “آمل أن تتعاون المجتمعات المختلفة علانية ، وتشارك خبراتها ، ولا تقرر إعادة اختراع العجلة في كل مرة يتم فيها تمويل مشروع جديد”.

وصف الحاجي الموقف بأنه “مؤسف” ، مضيفًا أنه يأمل في أن يكونوا قادرين على التعاون ، على الرغم من أنه أكد أنه بسبب مصدر تمويله في الاتحاد الأوروبي ، فإن Openeurollm مقيد من حيث تعاونه مع الكيانات غير الاتحاد الأوروبي ، بما في ذلك المملكة المتحدة الجامعات.

فجوة التمويل

أعطت وصول ديبسيك في الصين ، ونسبة التكلفة إلى الأداء التي تعد بها ، بعض التشجيع على أن مبادرات الذكاء الاصطناعى قد تكون قادرة على فعل أكثر بكثير من التفكير في البداية. ومع ذلك ، خلال الأسابيع القليلة الماضية ، شكك الكثيرون في التكاليف الحقيقية التي ينطوي عليها بناء Deepseek.

وقال بيتر سارلين ، الذي يشارك في مشروع OPENEUROLLM ، لـ TechCrunch: “فيما يتعلق بـ Deepseek ، لا نعرف سوى القليل جدًا عما حدث في بنائه بالضبط”.

بغض النظر ، فإن Sarlin يعتقد أن Openeurollm سيتمكن من الوصول إلى التمويل الكافي ، حيث أنه في الغالب لتغطية الناس. في الواقع ، يتم حساب جزء كبير من تكاليف بناء أنظمة الذكاء الاصطناعى ، ويجب تغطية ذلك في الغالب من خلال شراكتها مع مراكز EuroHPC.

وقال سارلين: “يمكنك القول أن Openeurollm لديه بالفعل ميزانية كبيرة”. “استثمر EuroHPC مليارات الدولارات في الذكاء الاصطناعي وحساب البنية التحتية ، والتزمت مليارات أخرى في توسيع ذلك في السنوات القليلة المقبلة.”

تجدر الإشارة أيضًا إلى أن مشروع OpeneUrollm لا يبني نحو منتج على مستوى المستهلك أو المؤسسة. إنه يتعلق فقط بالنماذج ، وهذا هو السبب في أن سارلين يعتقد أن الميزانية يجب أن تكون وافرة.

وقال سارلين: “إن القصد هنا ليس بناء chatbot أو مساعد منظمة العفو الدولية – ستكون هذه مبادرة منتج تتطلب الكثير من الجهد ، وهذا ما فعله Chatgpt جيدًا”. “ما نساهم به هو نموذج الأساس مفتوح المصدر يعمل كبنية تحتية لمنظمة العفو الدولية للشركات في أوروبا للبناء عليها. نحن نعرف ما يتطلبه الأمر لبناء نماذج ، إنه ليس شيئًا تحتاجه إلى مليارات الدولارات. “

منذ عام 2017 ، قادت Sarlin AI Silo Silo AI ، التي أطلقت – بالشراكة مع الآخرين ، بما في ذلك مشروع HPLT – عائلة Poro و Viking Open Models. هذه تدعم بالفعل حفنة من اللغات الأوروبية ، لكن الشركة تستعد الآن لنماذج التكرار التالية “Europa” ، والتي ستغطي جميع اللغات الأوروبية.

وهذا يرتبط مع فكرة “لا تبدأ من الصفر” كلها التي تبناها هاجي – هناك بالفعل مجموعة من الخبرة والتكنولوجيا في مكانها.

الدولة السيادية

كما لاحظ النقاد ، فإن Openeurollm لديها الكثير من الأجزاء المتحركة – والتي يعترف بها Hajič ، وإن كان ذلك مع نظرة إيجابية.

وقال “لقد شاركت في العديد من المشاريع التعاونية ، وأعتقد أن لديها مزاياها مقابل شركة واحدة”. “بالطبع لقد قاموا بأشياء رائعة في أمثال Openai إلى Mistral ، لكنني آمل أن يجلب مزيج من الخبرة الأكاديمية وتركيز الشركات شيئًا جديدًا.”

وفي نواح كثيرة ، لا يتعلق الأمر بمحاولة التفوق على التكنولوجيا الكبيرة أو الشركات الناشئة من الذكاء الاصطناعى بمليارات الدولارات ؛ الهدف النهائي هو السيادة الرقمية: (في الغالب) Open Foundation LLMS التي تم بناؤها بواسطة ، ولأوروبا.

“آمل ألا يكون هذا هو الحال ، ولكن في النهاية ، لسنا النموذج الأول ، ولدينا نموذج” جيد “، فسيظل لدينا نموذج مع جميع المكونات المتمركزة في أوروبا ، قال هاجي. “ستكون هذه نتيجة إيجابية.”

المصدر