تقنية

لماذا يعتقد نموذج الذكاء الاصطناعي الجديد لـ DeepSeek أنه ChatGPT


في وقت سابق من هذا الأسبوع، أصدر DeepSeek، وهو مختبر صيني للذكاء الاصطناعي ممول بشكل جيد، نموذجًا “مفتوحًا” للذكاء الاصطناعي يتفوق على العديد من المنافسين في المعايير الشائعة. النموذج، DeepSeek V3، كبير ولكنه فعال، ويتعامل مع المهام النصية مثل البرمجة وكتابة المقالات بسهولة.

ويبدو أيضًا أنه يعتقد أنه ChatGPT.

تُظهر المنشورات على X – واختبارات TechCrunch الخاصة – أن DeepSeek V3 يُعرّف نفسه على أنه ChatGPT، منصة الدردشة الآلية المدعومة بالذكاء الاصطناعي من OpenAI. وعندما طُلب منهم التوضيح، أصر DeepSeek V3 على أنه نسخة من نموذج GPT-4 الخاص بـ OpenAI والذي تم إصداره في عام 2023.

الأوهام عميقة. إذا طرحت سؤالاً على DeepSeek V3 حول واجهة برمجة التطبيقات الخاصة بـ DeepSeek، فسوف يعطيك تعليمات حول كيفية الاستخدام OpenAI واجهة برمجة التطبيقات. حتى أن DeepSeek V3 يروي بعضًا من نفس النكات التي يرويها GPT-4 – وصولاً إلى العبارات المضحكة.

إذن ماذا يحدث؟

نماذج مثل ChatGPT وDeepSeek V3 هي أنظمة إحصائية. ومن خلال تدريبهم على مليارات الأمثلة، يتعلمون أنماطًا في تلك الأمثلة لإجراء تنبؤات – مثل كيف تسبق عبارة “إلى من” في رسالة البريد الإلكتروني عادةً عبارة “قد يهمك الأمر”.

لم يكشف DeepSeek الكثير عن مصدر بيانات التدريب الخاصة بـ DeepSeek V3. ولكن لا يوجد نقص في مجموعات البيانات العامة التي تحتوي على نص تم إنشاؤه بواسطة GPT-4 عبر ChatGPT. إذا تم تدريب DeepSeek V3 على ذلك، فربما يكون النموذج قد حفظ بعض مخرجات GPT-4 ويقوم الآن بترجيعها حرفيًا.

قال مايك كوك، زميل باحث في كلية كينغز كوليدج لندن المتخصصة في الذكاء الاصطناعي، لـ TechCrunch: “من الواضح أن النموذج يشهد استجابات أولية من ChatGPT في مرحلة ما، لكن ليس من الواضح مكانها”. “قد يكون الأمر “عرضيًا”… ولكن لسوء الحظ، رأينا حالات لأشخاص يقومون بتدريب نماذجهم بشكل مباشر على مخرجات نماذج أخرى لمحاولة الاستفادة من معرفتهم.”

وأشار كوك إلى أن ممارسة نماذج التدريب على مخرجات أنظمة الذكاء الاصطناعي المنافسة يمكن أن تكون “سيئة للغاية” بالنسبة لجودة النماذج، لأنها يمكن أن تؤدي إلى الهلوسة وإجابات مضللة مثل ما ورد أعلاه. قال كوك: “مثل التقاط نسخة مصورة، فإننا نفقد المزيد والمزيد من المعلومات والارتباط بالواقع”.

وقد يكون ذلك أيضًا مخالفًا لشروط خدمة تلك الأنظمة.

تحظر شروط OpenAI على مستخدمي منتجاتها، بما في ذلك عملاء ChatGPT، استخدام المخرجات لتطوير نماذج تتنافس مع نماذج OpenAI.

ولم يستجب OpenAI وDeepSeek على الفور لطلبات التعليق. ومع ذلك، نشر سام ألتمان، الرئيس التنفيذي لشركة OpenAI، ما بدا وكأنه بحث عن DeepSeek ومنافسين آخرين في X Friday.

كتب ألتمان: “من السهل (نسبيًا) تقليد شيء تعرف أنه ناجح”. “من الصعب للغاية أن تفعل شيئًا جديدًا ومحفوفًا بالمخاطر وصعبًا عندما لا تعرف ما إذا كان سينجح أم لا.”

من المؤكد أن DeepSeek V3 ليس النموذج الأول الذي يخطئ في تعريف نفسه. تدعي شركة Gemini التابعة لـ Google وآخرون أحيانًا أنهم نماذج منافسة. على سبيل المثال، يقول Gemini، الذي تم طلبه بلغة الماندرين، إنه برنامج الدردشة الآلي Wenxinyiyan التابع لشركة Baidu الصينية.

وذلك لأن شبكة الإنترنت، حيث مصدر شركات الذكاء الاصطناعي للجزء الأكبر من بيانات التدريب الخاصة بها، أصبحت مليئة بالذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء Clickbait. تغمر الروبوتات موقعي Reddit وX. وبحسب أحد التقديرات، قد يتم إنشاء 90% من الويب بواسطة الذكاء الاصطناعي بحلول عام 2026.

إن هذا “التلوث”، إذا صح التعبير، قد جعل من الصعب جدًا تصفية مخرجات الذكاء الاصطناعي بشكل كامل من مجموعات بيانات التدريب.

من المؤكد أن DeepSeek قام بتدريب DeepSeek V3 مباشرة على النص الذي تم إنشاؤه بواسطة ChatGPT. لقد تم اتهام جوجل ذات مرة بالقيام بنفس الشيء.

وقالت هايدي خلاف، كبيرة علماء الذكاء الاصطناعي في معهد AI Now غير الربحي، إن التوفير في التكاليف الناتج عن “تقطير” معرفة النموذج الحالي يمكن أن يكون جذابًا للمطورين، بغض النظر عن المخاطر.

وقال خلاف: “حتى مع امتلاء بيانات الإنترنت الآن بمخرجات الذكاء الاصطناعي، فإن النماذج الأخرى التي سيتم تدريبها عن طريق الخطأ على مخرجات ChatGPT أو GPT-4 لن تظهر بالضرورة مخرجات تذكرنا برسائل OpenAI المخصصة”. “إذا كان الأمر كذلك فإن DeepSeek قامت بالتقطير جزئيًا باستخدام نماذج OpenAI، فلن يكون ذلك مفاجئًا.”

ولكن الأرجح هو أن الكثير من بيانات ChatGPT/GPT-4 قد وصلت إلى مجموعة تدريب DeepSeek V3. وهذا يعني أنه لا يمكن الوثوق بالنموذج في تحديد هويته بنفسه. ولكن الأمر الأكثر إثارة للقلق هو احتمال أن يؤدي DeepSeek V3، من خلال استيعاب مخرجات GPT-4 وتكرارها دون تمحيص، إلى تفاقم بعض التحيزات والعيوب في النموذج.


لدى TechCrunch رسالة إخبارية تركز على الذكاء الاصطناعي! قم بالتسجيل هنا للحصول عليه في بريدك الوارد كل يوم أربعاء.






المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading