Meta’s Vanilla Maverick AI Model تحتل المرتبة تحت المنافسين على معيار دردشة شهيرة

eshrag أبريل 11, 2025

0 19 دقيقة واحدة

Meta’s Vanilla Maverick AI Model تحتل المرتبة تحت المنافسين على معيار دردشة شهيرة

في وقت سابق من هذا الأسبوع ، هبطت Meta في الماء الساخن لاستخدام نسخة تجريبية غير منشورة من طراز Llama 4 Maverick لتحقيق درجة عالية على معيار تعهيد ، LM Arena. دفع الحادث إلى مشرفي LM Arena للاعتذار ، وتغيير سياساتهم ، وتسجيل الفانيليا مافريك غير المعدلة.

تبين ، إنه ليس منافسًا للغاية.

تم تصنيف مافريك غير المعدل ، “LLAMA-4-MAVERICK-17B-128E-INSTRUCT” ، في المرتبة أدناه على نماذج بما في ذلك GPT-4O من Openai ، و Claude 3.5 Sonnet ، وجيميني Gemini 1.5 من Google من Google اعتبارًا من يوم الجمعة. العديد من هذه النماذج عمرها أشهر.

تمت إضافة إصدار إصدار Llama 4 إلى Lmarena بعد أن اكتشف أنهم خدعوا ، لكن ربما لم ترها لأنه يتعين عليك التمرير لأسفل إلى المركز 32 وهو مكان الرتب pic.twitter.com/a0bxkdx4lx

– ρ: ɡσn (pigeon__s) 11 أبريل 2025

لماذا الأداء الضعيف؟ أوضحت الشركة في مخطط نشر يوم السبت الماضي ، “لقد تم تحسين” مافريك التجريبية “، LLAMA-4-Maverick-03-26-Experimental ،” محسّنة للمحاكاة “، كما أوضحت الشركة في مخطط نُشر يوم السبت الماضي. من الواضح أن هذه التحسينات لعبت بشكل جيد مع LM Arena ، والتي لديها المقيمين البشريين يقارن مخرجات النماذج واختيار ما يفضلون.

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. ومع ذلك ، فإن تصميم نموذج لقياس – إلى جانب كونه مضللاً – يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات مختلفة.

في بيان ، أخبر متحدث باسم META TechCrunch أن تجارب التعريف مع “جميع أنواع المتغيرات المخصصة”.

وقال المتحدث باسم “Llama-4-Maverick-03-26-Experimental” هو نسخة محسّنة للدردشة التي قمنا بها والتي تعمل بشكل جيد أيضًا على Lmarena “. “لقد أصدرنا الآن نسختنا المفتوحة المصدر وسنرى كيف يقوم المطورون بتخصيص Llama 4 لحالات الاستخدام الخاصة بهم. نحن متحمسون لمعرفة ما سيبنونه ونتطلع إلى ملاحظاتهم المستمرة.”

المصدر