تقنية

وصلت مناقشات حول معايير الذكاء الاصطناعى إلى بوكيمون


لا حتى بوكيمون في مأمن من جدل القياس من الذكاء الاصطناعي.

في الأسبوع الماضي ، ذهب منشور على X فيروسية ، مدعيا أن أحدث نموذج Gemini من Google تجاوز نموذج كلود الرائد في شركة Pokémon Pame Trilogy الأصلية. وبحسب ما ورد ، وصل الجوزاء إلى مدينة لافندر في تيار نشل المطور ؛ كان كلود عالقًا في جبل مون اعتبارًا من أواخر فبراير.

ولكن ما فشل المنشور في ذكره هو أن الجوزاء كان له ميزة.

كما أشار المستخدمون في Reddit ، قام المطور الذي يحافظ على دفق Gemini ببناء الحد الأدنى المخصص يساعد النموذج على تحديد “البلاط” في اللعبة مثل الأشجار القابلة للتطبيق. هذا يقلل من الحاجة إلى الجوزاء لتحليل لقطات الشاشة قبل اتخاذ قرارات اللعب.

الآن ، يعد Pokémon معيارًا شبه خبيث في أحسن الأحوال-قليلون يجادلون بأنه اختبار مفيد للغاية لقدرات النموذج. لكن ذلك يكون مثال تعليمي على كيفية تأثير تطبيقات مختلفة على المعيار على النتائج.

على سبيل المثال ، أبلغت الأنثروبور عن درجتين لنموذج Sonnet البشري 3.7 في مؤخرا على مؤشر Swe-bench ، والذي تم تصميمه لتقييم قدرات ترميز النموذج. حقق كلود 3.7 Sonnet دقة 62.3 ٪ على SWE-BENCED تم التحقق منها ، ولكن 70.3 ٪ مع “سقالة مخصصة” تطورت الإنسان.

في الآونة الأخيرة ، قامت Meta بتصنيع نسخة من أحد طرزها الأحدث ، Llama 4 Maverick ، ​​لأداء جيد على معيار معين ، LM Arena. نسخة الفانيليا من النموذج درجات أسوأ بكثير في نفس التقييم.

بالنظر إلى أن معايير الذكاء الاصطناعى-بوكيمون المشمولة-هي تدابير غير كاملة في البداية ، وتهدد التطبيقات المخصصة وغير القياسية بالمياه إلى أبعد من ذلك. وهذا يعني ، لا يبدو أنه من المحتمل أن يصبح من الأسهل مقارنة النماذج عند إصدارها.





المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading