تقنية

يبدو أن نموذج الذكاء الاصطناعي الجديد من DeepSeek هو أحد أفضل المنافسين “المفتوحين” حتى الآن


ابتكر مختبر صيني ما يبدو أنه أحد أقوى نماذج الذكاء الاصطناعي “المفتوحة” حتى الآن.

تم تطوير النموذج، DeepSeek V3، من قبل شركة DeepSeek للذكاء الاصطناعي وتم إصداره يوم الأربعاء بموجب ترخيص متساهل يسمح للمطورين بتنزيله وتعديله لمعظم التطبيقات، بما في ذلك التطبيقات التجارية.

يستطيع DeepSeek V3 التعامل مع مجموعة من أعباء العمل والمهام المستندة إلى النصوص، مثل البرمجة والترجمة وكتابة المقالات ورسائل البريد الإلكتروني من خلال موجه وصفي.

وفقًا للاختبار المعياري الداخلي لـ DeepSeek، يتفوق DeepSeek V3 في الأداء على النماذج المتاحة “المتاحة” القابلة للتنزيل ونماذج الذكاء الاصطناعي “المغلقة” التي لا يمكن الوصول إليها إلا من خلال واجهة برمجة التطبيقات (API). في مجموعة فرعية من مسابقات البرمجة المستضافة على Codeforces، وهي منصة لمسابقات البرمجة، يتفوق DeepSeek على النماذج الأخرى، بما في ذلك Meta’s Llama 3.1 405B، وGPT-4o من OpenAI، وQwen 2.5 72B من Alibaba.

يسحق DeepSeek V3 أيضًا المنافسة على Aider Polyglot، وهو اختبار مصمم لقياس، من بين أمور أخرى، ما إذا كان النموذج يمكنه كتابة تعليمات برمجية جديدة بنجاح تتكامل مع التعليمات البرمجية الموجودة.

يدعي DeepSeek أن DeepSeek V3 تم تدريبه على مجموعة بيانات مكونة من 14.8 تريليون رمز. في علم البيانات، تُستخدم الرموز المميزة لتمثيل أجزاء من البيانات الأولية – مليون رمز يساوي حوالي 750.000 كلمة.

إنها ليست مجرد مجموعة التدريب الضخمة. DeepSeek V3 هائل الحجم: 685 مليار معلمة. (المعلمات هي نماذج المتغيرات الداخلية التي تستخدمها لإجراء تنبؤات أو قرارات.) وهذا يعادل حوالي 1.6 ضعف حجم Llama 3.1 405B، الذي يحتوي على 405 مليار معلمة.

غالبًا ما يرتبط عدد المعلمات (ولكن ليس دائمًا) بالمهارة؛ تميل النماذج ذات المعلمات الأكثر إلى التفوق على النماذج ذات المعلمات الأقل. لكن النماذج الكبيرة تتطلب أيضًا أجهزة أقوى حتى يتم تشغيلها. ستحتاج النسخة غير المحسنة من DeepSeek V3 إلى بنك من وحدات معالجة الرسومات المتطورة للإجابة على الأسئلة بسرعات معقولة.

على الرغم من أنه ليس النموذج الأكثر عملية، إلا أن DeepSeek V3 يعد إنجازًا في بعض النواحي. تمكنت DeepSeek من تدريب النموذج باستخدام مركز بيانات لوحدات معالجة الرسومات Nvidia H800 في حوالي شهرين فقط – وحدات معالجة الرسومات التي منعت وزارة التجارة الأمريكية الشركات الصينية مؤخرًا من شرائها. تدعي الشركة أيضًا أنها أنفقت 5.5 مليون دولار فقط لتدريب DeepSeek V3، وهو جزء صغير من تكلفة تطوير نماذج مثل OpenAI’s GPT-4.

الجانب السلبي هو أن وجهات النظر السياسية للنموذج تمت تصفيتها قليلاً. اسأل DeepSeek V3 عن ميدان تيانانمن، على سبيل المثال، ولن يجيب.

تخضع شركة DeepSeek، باعتبارها شركة صينية، إلى معايير مرجعية من قبل هيئة تنظيم الإنترنت في الصين لضمان أن استجابات نماذجها “تجسد القيم الاشتراكية الأساسية”. ترفض العديد من أنظمة الذكاء الاصطناعي الصينية الاستجابة للمواضيع التي قد تثير حفيظة الجهات التنظيمية، مثل التكهنات حول نظام شي جين بينغ.

إن DeepSeek، التي كشفت مؤخراً عن DeepSeek-R1، وهو الحل لنموذج “الاستدلال” o1 الخاص بشركة OpenAI، هي منظمة غريبة. إنه مدعوم من High-Flyer Capital Management، وهو صندوق تحوط كمي صيني يستخدم الذكاء الاصطناعي لإبلاغ قرارات التداول الخاصة به.

لقد أجبرت نماذج DeepSeek المنافسين مثل ByteDance، وBaidu، وAlibaba على خفض أسعار الاستخدام لبعض نماذجهم – وجعل البعض الآخر مجانيًا تمامًا.

تقوم High-Flyer ببناء مجموعات الخوادم الخاصة بها للتدريب على النماذج، والتي يقال إن أحدثها تحتوي على 10000 وحدة معالجة رسوميات Nvidia A100 وتكلف مليار ين (حوالي 138 مليون دولار). تهدف شركة High-Flyer، التي أسسها Liang Wenfeng، خريج علوم الكمبيوتر، إلى تحقيق الذكاء الاصطناعي “الفائق الذكاء” من خلال مؤسسة DeepSeek الخاصة بها.

في مقابلة أجريت معه في وقت سابق من هذا العام، وصف ليانغ المصادر المفتوحة بأنها “فعل ثقافي”، ووصف الذكاء الاصطناعي مغلق المصدر مثل OpenAI بأنه خندق “مؤقت”. وأشار إلى أنه “حتى نهج OpenAI مغلق المصدر لم يمنع الآخرين من اللحاق بالركب”.

بالفعل.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading