تقنية

Meta’s Vanilla Maverick AI Model تحتل المرتبة تحت المنافسين على معيار دردشة شهيرة


في وقت سابق من هذا الأسبوع ، هبطت Meta في الماء الساخن لاستخدام نسخة تجريبية غير منشورة من طراز Llama 4 Maverick لتحقيق درجة عالية على معيار تعهيد ، LM Arena. دفع الحادث إلى مشرفي LM Arena للاعتذار ، وتغيير سياساتهم ، وتسجيل الفانيليا مافريك غير المعدلة.

تبين ، إنه ليس منافسًا للغاية.

تم تصنيف مافريك غير المعدل ، “LLAMA-4-MAVERICK-17B-128E-INSTRUCT” ، في المرتبة أدناه على نماذج بما في ذلك GPT-4O من Openai ، و Claude 3.5 Sonnet ، وجيميني Gemini 1.5 من Google من Google اعتبارًا من يوم الجمعة. العديد من هذه النماذج عمرها أشهر.

لماذا الأداء الضعيف؟ أوضحت الشركة في مخطط نشر يوم السبت الماضي ، “لقد تم تحسين” مافريك التجريبية “، LLAMA-4-Maverick-03-26-Experimental ،” محسّنة للمحاكاة “، كما أوضحت الشركة في مخطط نُشر يوم السبت الماضي. من الواضح أن هذه التحسينات لعبت بشكل جيد مع LM Arena ، والتي لديها المقيمين البشريين يقارن مخرجات النماذج واختيار ما يفضلون.

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. ومع ذلك ، فإن تصميم نموذج لقياس – إلى جانب كونه مضللاً – يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات مختلفة.

في بيان ، أخبر متحدث باسم META TechCrunch أن تجارب التعريف مع “جميع أنواع المتغيرات المخصصة”.

وقال المتحدث باسم “Llama-4-Maverick-03-26-Experimental” هو نسخة محسّنة للدردشة التي قمنا بها والتي تعمل بشكل جيد أيضًا على Lmarena “. “لقد أصدرنا الآن نسختنا المفتوحة المصدر وسنرى كيف يقوم المطورون بتخصيص Llama 4 لحالات الاستخدام الخاصة بهم. نحن متحمسون لمعرفة ما سيبنونه ونتطلع إلى ملاحظاتهم المستمرة.”





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading