تقنية

معايير META لنماذج الذكاء الاصطناعى الجديدة مضللة بعض الشيء


يحتل مافريك ، أحد طرازات AI الرائدة الجديدة التي تم إصدارها يوم السبت ، Maverick ، ​​في المرتبة الثانية في LM Arena ، وهو اختبار قام بمقارنة المتصلين البشريين بنواتج النماذج واختيار ما يفضلونه. ولكن يبدو أن إصدار Maverick الذي تم نشره Meta في LM Arena يختلف عن الإصدار المتاح على نطاق واسع للمطورين.

كما أشار العديد من باحثو الذكاء الاصطناعي على X ، لاحظت Meta في إعلانها أن Maverick on LM Arena هو “إصدار دردشة تجريبية”. في هذه الأثناء ، يكشف رسم بياني على موقع Llama الرسمي على موقع LM Arena الخاص بـ Meta باستخدام “Llama 4 Maverick محسّن من أجل المحادثة”.

كما كتبنا من قبل ، لأسباب مختلفة ، لم تكن LM Arena هي المقياس الأكثر موثوقية لأداء نموذج الذكاء الاصطناعي. لكن شركات الذكاء الاصطناعى عمومًا لم تخصص أو تم ضبط نماذجها بشكل أفضل لتسجيلها بشكل أفضل على LM Arena-أو لم تعترف بذلك ، على الأقل.

إن المشكلة في تصرف نموذج إلى معيار ، وحجبه ، ثم إطلاق متغير “الفانيليا” من نفس النموذج هو أنه يجعل من الصعب على المطورين التنبؤ بالضبط مدى أداء النموذج في سياقات معينة. إنه أيضًا مضلل. من الناحية المثالية ، توفر المعايير – غير كافية بشكل محزن كما هي – لقطة من نقاط القوة والضعف في نموذج واحد عبر مجموعة من المهام.

في الواقع ، لاحظ الباحثون في X اختلافات صارخة في سلوك مافريك القابل للتنزيل علنًا مقارنة بالنموذج المستضاف في LM Arena. يبدو أن إصدار LM Arena يستخدم الكثير من الرموز التعبيرية ، ويعطي إجابات طويلة بشكل لا يصدق.

لقد تواصلنا مع Meta و Chatbot Arena ، المنظمة التي تحافظ على LM Arena ، للتعليق.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading