معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء

eshrag أبريل 6, 2025

0 23 دقيقة واحدة

معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء

يحتل مافريك ، أحد طرازات AI الرائدة الجديدة التي تم إصدارها يوم السبت ، Maverick ، في المرتبة الثانية في LM Arena ، وهو اختبار قام بمقارنة المتصلين البشريين بنواتج النماذج واختيار ما يفضلونه. ولكن يبدو أن إصدار Maverick الذي تم نشره Meta في LM Arena يختلف عن الإصدار المتاح على نطاق واسع للمطورين.

كما أشار العديد من باحثو الذكاء الاصطناعي على X ، لاحظت Meta في إعلانها أن Maverick on LM Arena هو “إصدار دردشة تجريبية”. في هذه الأثناء ، يكشف رسم بياني على موقع Llama الرسمي على موقع LM Arena الخاص بـ Meta باستخدام “Llama 4 Maverick محسّن من أجل المحادثة”.

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. لكن شركات الذكاء الاصطناعى عمومًا لم تخصص أو تم ضبط نماذجها بشكل أفضل لتسجيلها بشكل أفضل على LM Arena-أو لم تعترف بذلك ، على الأقل.

إن المشكلة في تصرف نموذج إلى معيار ، وحجبه ، ثم إطلاق متغير “الفانيليا” من نفس النموذج هو أنه يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات معينة. إنه أيضًا مضلل. من الناحية المثالية ، توفر المعايير – غير كافية بشكل محزن كما هي – لقطة من نقاط القوة والضعف في نموذج واحد عبر مجموعة من المهام.

في الواقع ، لاحظ الباحثون في X اختلافات صارخة في سلوك مافريك القابل للتنزيل علنًا مقارنة بالنموذج المستضاف في LM Arena. يبدو أن إصدار LM Arena يستخدم الكثير من الرموز التعبيرية ، ويعطي إجابات طويلة بشكل لا يصدق.

حسنًا ، llama 4 هو def a lo lo lo lo lo loot ، ما هي مدينة yap هذه pic.twitter.com/y3gvhbvz65

– ناثان لامبرت (ناتولامبرت) 6 أبريل 2025

لسبب ما ، يستخدم نموذج Llama 4 في Arena الكثير من الرموز التعبيرية

معا. منظمة العفو الدولية ، يبدو أفضل: pic.twitter.com/f74odx4ztt

– Notes Tech Dev (TechDevNotes) 6 أبريل 2025