تقنية

ربما استخدم Deepseek Gemini من Google لتدريب نموذجها الأخير


في الأسبوع الماضي ، أصدرت Listence Lab Deepseek نسخة محدثة من نموذج AI المنطقي R1 الذي يعمل بشكل جيد على عدد من معايير الرياضيات والترميز. لم تكشف الشركة عن مصدر البيانات التي استخدمتها لتدريب النموذج ، لكن بعض باحثو الذكاء الاصطناعى يتوقعون أن جزءًا على الأقل جاء من عائلة Gewing Gemini من AI.

نشر سام بايش ، وهو مطور مقره ملبورن الذي ينشئ تقييمات “الذكاء العاطفي” لمنظمة العفو الدولية ، ما يدعي أنه دليل على أن نموذج ديبسيك قد تم تدريبه على المخرجات من الجوزاء. قال بايش في منشور X ، إن نموذج Deepseek ، المسمى R1-0528 ، يفضل الكلمات والتعبيرات المشابهة لتلك التي تفضلها Gemini 2.5 Pro من Google.

هذا ليس بندقية التدخين. لكن مطورًا آخر ، المبدع المستعار لـ “تقييم حرية التعبير” لـ AI يسمى ProberkMap ، أشار إلى آثار نموذج Deepseek – “الأفكار” التي يولدها النموذج أثناء عمله من أجل استنتاج – “اقرأ مثل آثار الجوزاء”.

تم اتهام Deepseek بالتدريب على البيانات من نماذج الذكاء الاصطناعى المنافسة من قبل. في ديسمبر / كانون الأول ، لاحظ المطورون أن طراز V3 من Deepseek غالبًا ما عرف نفسه على أنه ChatGPT ، منصة chatbot التي تعمل من AI Openai ، مما يشير إلى أنه قد يتم تدريبه على سجلات الدردشة ChatGPT.

في وقت سابق من هذا العام ، أخبر Openai The Financial Times أنها عثرت على أدلة تربط Deepseek باستخدام التقطير ، وهي تقنية لتدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من أكبر وأكثر قدرة. وفقًا لـ Bloomberg ، اكتشف Microsoft ، وهو متعاون ومستثمر مقرب من Openai ، أن كميات كبيرة من البيانات يتم تنشيطها من خلال حسابات Openai Developer في أواخر عام 2024 – يعتقد Openai أن Openai تابعة لـ Deepseek.

التقطير ليس ممارسة غير مألوفة ، لكن شروط خدمة Openai تمنع العملاء من استخدام مخرجات نموذج الشركة لبناء الذكاء الاصطناعي المتنافس.

لكي نكون واضحين ، فضع العديد من النماذج من تحديد نفسها وتلتقت على نفس الكلمات والمنعطفات من العبارات. ذلك لأن شبكة الويب المفتوحة ، التي تصدر شركات الذكاء الاصطناعى المصدر الجزء الأكبر من بيانات التدريب الخاصة بها ، أصبحت مليئة بانحدار الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء ClickBait ، والروبوتات تغمر Reddit و X.

هذا “التلوث” ، إذا صح التعبير ، جعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بدقة من مجموعات بيانات التدريب.

ومع ذلك ، لا يعتقد خبراء الذكاء الاصطناعى مثل ناثان لامبرت ، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي ، AI2 ، أنه من غير المسبق أن Deepseek تدرب على بيانات من Google’s Gemini.

وكتب لامبرت في منشور على X. “إذا كنت Deepseek ، فسوف أقوم بالتأكيد بإنشاء الكثير من البيانات الاصطناعية من أفضل نموذج API هناك”.[DeepSeek is] قصيرة على وحدات معالجة الرسومات والتدفق مع النقود. إنه حرفيًا بشكل فعال أكثر بالنسبة لهم. “

جزئيًا في محاولة لمنع التقطير ، كانت شركات الذكاء الاصطناعى تكثف التدابير الأمنية.

في أبريل ، بدأ Openai في مطالبة المؤسسات بإكمال عملية التحقق من الهوية من أجل الوصول إلى نماذج متقدمة معينة. تتطلب العملية هوية صادرة من الحكومة من أحد البلدان التي تدعمها API من Openai ؛ الصين ليست في القائمة.

في مكان آخر ، بدأت Google مؤخرًا في “تلخيص” الآثار التي تم إنشاؤها بواسطة النماذج المتوفرة من خلال منصة Developer AI Studio ، وهي خطوة تجعل من الصعب تدريب نماذج منافسة الأداء على آثار الجوزاء. وقالت الأنثروبور في مايو إنها ستبدأ في تلخيص آثار طرازها ، مشيرة إلى الحاجة إلى حماية “مزاياها التنافسية”.

لقد تواصلنا مع Google للتعليق وسنقوم بتحديث هذه القطعة إذا سمعنا.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading