Meta’s Vanilla Maverick AI Model تحتل المرتبة تحت المنافسين على معيار دردشة شهيرة

في وقت سابق من هذا الأسبوع ، هبطت Meta في الماء الساخن لاستخدام نسخة تجريبية غير منشورة من طراز Llama 4 Maverick لتحقيق درجة عالية على معيار تعهيد ، LM Arena. دفع الحادث إلى مشرفي LM Arena للاعتذار ، وتغيير سياساتهم ، وتسجيل الفانيليا مافريك غير المعدلة.
تبين ، إنه ليس منافسًا للغاية.
تم تصنيف مافريك غير المعدل ، “LLAMA-4-MAVERICK-17B-128E-INSTRUCT” ، في المرتبة أدناه على نماذج بما في ذلك GPT-4O من Openai ، و Claude 3.5 Sonnet ، وجيميني Gemini 1.5 من Google من Google اعتبارًا من يوم الجمعة. العديد من هذه النماذج عمرها أشهر.
تمت إضافة إصدار إصدار Llama 4 إلى Lmarena بعد أن اكتشف أنهم خدعوا ، لكن ربما لم ترها لأنه يتعين عليك التمرير لأسفل إلى المركز 32 وهو مكان الرتب pic.twitter.com/a0bxkdx4lx
– ρ: ɡσn (pigeon__s) 11 أبريل 2025
لماذا الأداء الضعيف؟ أوضحت الشركة في مخطط نشر يوم السبت الماضي ، “لقد تم تحسين” مافريك التجريبية “، LLAMA-4-Maverick-03-26-Experimental ،” محسّنة للمحاكاة “، كما أوضحت الشركة في مخطط نُشر يوم السبت الماضي. من الواضح أن هذه التحسينات لعبت بشكل جيد مع LM Arena ، والتي لديها المقيمين البشريين يقارن مخرجات النماذج واختيار ما يفضلون.
كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. ومع ذلك ، فإن تصميم نموذج لقياس – إلى جانب كونه مضللاً – يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات مختلفة.
في بيان ، أخبر متحدث باسم META TechCrunch أن تجارب التعريف مع “جميع أنواع المتغيرات المخصصة”.
وقال المتحدث باسم “Llama-4-Maverick-03-26-Experimental” هو نسخة محسّنة للدردشة التي قمنا بها والتي تعمل بشكل جيد أيضًا على Lmarena “. “لقد أصدرنا الآن نسختنا المفتوحة المصدر وسنرى كيف يقوم المطورون بتخصيص Llama 4 لحالات الاستخدام الخاصة بهم. نحن متحمسون لمعرفة ما سيبنونه ونتطلع إلى ملاحظاتهم المستمرة.”
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.