وصلت مناقشات حول معايير الذكاء الاصطناعى إلى بوكيمون

eshrag أبريل 14, 2025

0 17 دقيقة واحدة

وصلت مناقشات حول معايير الذكاء الاصطناعى إلى بوكيمون

لا حتى بوكيمون في مأمن من جدل القياس من الذكاء الاصطناعي.

في الأسبوع الماضي ، ذهب منشور على X فيروسية ، مدعيا أن أحدث نموذج Gemini من Google تجاوز نموذج كلود الرائد في شركة Pokémon Pame Trilogy الأصلية. وبحسب ما ورد ، وصل الجوزاء إلى مدينة لافندر في تيار نشل المطور ؛ كان كلود عالقًا في جبل مون اعتبارًا من أواخر فبراير.

يتقدم Gemini حرفيًا على Claud ATM في بوكيمون بعد وصوله إلى مدينة الخزامى

119 مناظر حية فقط راجع للشغل ، دفق الاستخفاف بشكل لا يصدق pic.twitter.com/8avsovai4x

– Jush (@jush21e8) 10 أبريل 2025

ولكن ما فشل المنشور في ذكره هو أن الجوزاء كان له ميزة.

كما أشار المستخدمون في Reddit ، قام المطور الذي يحافظ على دفق Gemini ببناء الحد الأدنى المخصص يساعد النموذج على تحديد “البلاط” في اللعبة مثل الأشجار القابلة للتطبيق. هذا يقلل من الحاجة إلى الجوزاء لتحليل لقطات الشاشة قبل اتخاذ قرارات اللعب.

الآن ، يعد Pokémon معيارًا شبه خبيث في أحسن الأحوال-قليلون يجادلون بأنه اختبار مفيد للغاية لقدرات النموذج. لكن ذلك يكون مثال تعليمي على كيفية تأثير تطبيقات مختلفة على المعيار على النتائج.

على سبيل المثال ، أبلغت الأنثروبور عن درجتين لنموذج Sonnet البشري 3.7 في مؤخرا على مؤشر Swe-bench ، والذي تم تصميمه لتقييم قدرات ترميز النموذج. حقق كلود 3.7 Sonnet دقة 62.3 ٪ على SWE-BENCED تم التحقق منها ، ولكن 70.3 ٪ مع “سقالة مخصصة” تطورت الإنسان.

في الآونة الأخيرة ، قامت Meta بتصنيع نسخة من أحد طرزها الأحدث ، Llama 4 Maverick ، لأداء جيد على معيار معين ، LM Arena. نسخة الفانيليا من النموذج درجات أسوأ بكثير في نفس التقييم.

بالنظر إلى أن معايير الذكاء الاصطناعى-بوكيمون المشمولة-هي تدابير غير كاملة في البداية ، وتهدد التطبيقات المخصصة وغير القياسية بالمياه إلى أبعد من ذلك. وهذا يعني ، لا يبدو أنه من المحتمل أن يصبح من الأسهل مقارنة النماذج عند إصدارها.

المصدر