ربما استخدم Deepseek Gemini من Google لتدريب نموذجها الأخير

0 5 3 دقائق

ربما استخدم Deepseek Gemini من Google لتدريب نموذجها الأخير

في الأسبوع الماضي ، أصدرت Listence Lab Deepseek نسخة محدثة من نموذج AI المنطقي R1 الذي يعمل بشكل جيد على عدد من معايير الرياضيات والترميز. لم تكشف الشركة عن مصدر البيانات التي استخدمتها لتدريب النموذج ، لكن بعض باحثو الذكاء الاصطناعى يتوقعون أن جزءًا على الأقل جاء من عائلة Gewing Gemini من AI.

نشر سام بايش ، وهو مطور مقره ملبورن الذي ينشئ تقييمات “الذكاء العاطفي” لمنظمة العفو الدولية ، ما يدعي أنه دليل على أن نموذج ديبسيك قد تم تدريبه على المخرجات من الجوزاء. قال بايش في منشور X ، إن نموذج Deepseek ، المسمى R1-0528 ، يفضل الكلمات والتعبيرات المشابهة لتلك التي تفضلها Gemini 2.5 Pro من Google.

إذا كنت تتساءل لماذا يبدو New Deepseek R1 مختلفًا بعض الشيء ، فأعتقد أنهم ربما تحولوا من التدريب على Openai الاصطناعية إلى مخرجات الجوزاء الاصطناعية. pic.twitter.com/oex9roapnv

– Sam Paech (sam_paech) 29 مايو 2025

هذا ليس بندقية التدخين. لكن مطورًا آخر ، المبدع المستعار لـ “تقييم حرية التعبير” لـ AI يسمى ProberkMap ، أشار إلى آثار نموذج Deepseek – “الأفكار” التي يولدها النموذج أثناء عمله من أجل استنتاج – “اقرأ مثل آثار الجوزاء”.

تم اتهام Deepseek بالتدريب على البيانات من نماذج الذكاء الاصطناعى المنافسة من قبل. في ديسمبر / كانون الأول ، لاحظ المطورون أن طراز V3 من Deepseek غالبًا ما عرف نفسه على أنه ChatGPT ، منصة chatbot التي تعمل من AI Openai ، مما يشير إلى أنه قد يتم تدريبه على سجلات الدردشة ChatGPT.

في وقت سابق من هذا العام ، أخبر Openai The Financial Times أنها عثرت على أدلة تربط Deepseek باستخدام التقطير ، وهي تقنية لتدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من أكبر وأكثر قدرة. وفقًا لـ Bloomberg ، اكتشف Microsoft ، وهو متعاون ومستثمر مقرب من Openai ، أن كميات كبيرة من البيانات يتم تنشيطها من خلال حسابات Openai Developer في أواخر عام 2024 – يعتقد Openai أن Openai تابعة لـ Deepseek.

التقطير ليس ممارسة غير مألوفة ، لكن شروط خدمة Openai تمنع العملاء من استخدام مخرجات نموذج الشركة لبناء الذكاء الاصطناعي المتنافس.

لكي نكون واضحين ، فضع العديد من النماذج من تحديد نفسها وتلتقت على نفس الكلمات والمنعطفات من العبارات. ذلك لأن شبكة الويب المفتوحة ، التي تصدر شركات الذكاء الاصطناعى المصدر الجزء الأكبر من بيانات التدريب الخاصة بها ، أصبحت مليئة بانحدار الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء ClickBait ، والروبوتات تغمر Reddit و X.

هذا “التلوث” ، إذا صح التعبير ، جعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بدقة من مجموعات بيانات التدريب.

ومع ذلك ، لا يعتقد خبراء الذكاء الاصطناعى مثل ناثان لامبرت ، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي ، AI2 ، أنه من غير المسبق أن Deepseek تدرب على بيانات من Google’s Gemini.

وكتب لامبرت في منشور على X. “إذا كنت Deepseek ، فسوف أقوم بالتأكيد بإنشاء الكثير من البيانات الاصطناعية من أفضل نموذج API هناك”.[DeepSeek is] قصيرة على وحدات معالجة الرسومات والتدفق مع النقود. إنه حرفيًا بشكل فعال أكثر بالنسبة لهم. “

إذا كنت عميقًا ، فسأقوم بالتأكيد بإنشاء الكثير من البيانات الاصطناعية من أفضل نموذج API هناك. أنها قصيرة على وحدات معالجة الرسومات والتدفق مع النقد. انها حرفيا بشكل فعال أكثر حسابا بالنسبة لهم. نعم على سؤال Gemini Distill.

– ناثان لامبرت (ناتولامبرت) 3 يونيو 2025

جزئيًا في محاولة لمنع التقطير ، كانت شركات الذكاء الاصطناعى تكثف التدابير الأمنية.

في أبريل ، بدأ Openai في مطالبة المؤسسات بإكمال عملية التحقق من الهوية من أجل الوصول إلى نماذج متقدمة معينة. تتطلب العملية هوية صادرة من الحكومة من أحد البلدان التي تدعمها API من Openai ؛ الصين ليست في القائمة.

في مكان آخر ، بدأت Google مؤخرًا في “تلخيص” الآثار التي تم إنشاؤها بواسطة النماذج المتوفرة من خلال منصة Developer AI Studio ، وهي خطوة تجعل من الصعب تدريب نماذج منافسة الأداء على آثار الجوزاء. وقالت الأنثروبور في مايو إنها ستبدأ في تلخيص آثار طرازها ، مشيرة إلى الحاجة إلى حماية “مزاياها التنافسية”.

لقد تواصلنا مع Google للتعليق وسنقوم بتحديث هذه القطعة إذا سمعنا.

المصدر