استخدم هؤلاء الباحثون أسئلة ألغاز NPR Sunday لتقييم نماذج “التفكير” الذكاء الاصطناعي

eshrag فبراير 6, 2025

0 26 3 دقائق

استخدم هؤلاء الباحثون أسئلة ألغاز NPR Sunday لتقييم نماذج “التفكير” الذكاء الاصطناعي

كل يوم أحد ، يحصل مضيف NPR على Will Shortz ، وهو Guru Guru في نيويورك تايمز ، على اختبار الآلاف من المستمعين في شريحة طويلة الأمد تسمى The Sunday Puzzle. بينما تكون مكتوبة لتكون قابلة للحل بدون أيضاً الكثير من المعرفة المسبقة ، عادة ما يكون المسلحون يمثلون تحديًا حتى بالنسبة للمتسابقين المهرة.

لهذا السبب يعتقد بعض الخبراء أنهم وسيلة واعدة لاختبار حدود قدرات حل المشكلات في الذكاء الاصطناعي.

في دراسة جديدة ، قام فريق من الباحثين الذين ينحدرون من كلية ويلسلي ، وكلية أوبرلين ، وجامعة تكساس في أوستن ، بجامعة نورث إيسترن ، ومؤشر بدء التشغيل ، بإنشاء معيار منظمة العفو الدولية باستخدام الألغاز من حلقات ألغاز الأحد. يقول الفريق إن اختباره يكشف عن رؤى مفاجئة ، مثل ما يسمى نماذج التفكير-Openai’s O1 ، من بين أمور أخرى-في بعض الأحيان “الاستسلام” وتقديم إجابات يعرفون أنها غير صحيحة.

“لقد أردنا تطوير معيار مع المشكلات التي يمكن للبشر فهمها مع المعرفة العامة فقط” ، هذا ما قاله أرجون جها ، وهو طالب جامعي في علوم الكمبيوتر في شمال شرق وأحد المؤلفين المشاركين في الدراسة ، لـ TechCrunch.

صناعة الذكاء الاصطناعى هي في مأزق القياس في الوقت الحالي. معظم الاختبارات المستخدمة بشكل شائع لتقييم نماذج الذكاء الاصطناعي للمهارات ، مثل الكفاءة على أسئلة الرياضيات والعلوم على مستوى الدكتوراه ، والتي لا تتعلق بالمستخدم العادي. وفي الوقت نفسه ، تقترب العديد من المعايير – حتى المعايير التي تم إصدارها مؤخرًا نسبيًا – بسرعة من نقطة التشبع.

إن مزايا لعبة مسابقة الإذاعة العامة مثل أحجية الأحد هي أنها لا تختبر المعرفة الباطنية ، ويتم صياغة التحديات بحيث لا يمكن أن تستمد النماذج على “الذاكرة القوية” لحلها ، كما أوضحت جها.

وقال جوها: “أعتقد أن ما يجعل هذه المشكلات صعبة هو أنه من الصعب حقًا إحراز تقدم ذي معنى في مشكلة حتى تحلها – وذلك عندما ينقر كل شيء معًا مرة واحدة”. “يتطلب ذلك مزيجًا من البصيرة وعملية القضاء”.

لا يوجد معيار مثالي ، بالطبع. لغز الأحد يركز على الولايات المتحدة والإنجليزية فقط. ولأن الاختبارات متوفرة للجمهور ، فمن المحتمل أن النماذج تدرب عليها ويمكن أن “الغش” إلى حد ما ، على الرغم من أن جوها يقول إنه لم ير دليلًا على ذلك.

وأضاف: “يتم إصدار أسئلة جديدة كل أسبوع ، ويمكننا أن نتوقع أن تكون أحدث الأسئلة غير مرئية حقًا”. “نعتزم الحفاظ على المعيار الجديد وتتبع كيف يتغير أداء النموذج مع مرور الوقت.”

على معيار الباحثين ، الذي يتكون من حوالي 600 من ألغاز أحذية الأحد ، يتفوق نماذج التفكير مثل O1 و Deepseek’s R1 على الباقي. إن نماذج التفكير تمامًا تحقق من الحقائق قبل إعطاء النتائج ، مما يساعدهم على تجنب بعض المزالق التي عادة ما ترتفع نماذج منظمة العفو الدولية. المفاضلة هي أن نماذج التفكير تستغرق وقتًا أطول قليلاً للوصول إلى الحلول-عادةً ثانيًا إلى دقائق أطول.

نموذج واحد على الأقل ، Deepseek’s R1 ، يعطي حلولًا يعرف أنه مخطئ لبعض أسئلة ألغاز الأحد. سوف يذكر R1 حرفيًا “استسلم” ، يليه إجابة غير صحيحة تم اختيارها بشكل عشوائي – السلوك الذي يمكن أن يرتبط به هذا الإنسان بالتأكيد.

تقوم النماذج باختيارات أخرى غريبة ، مثل إعطاء إجابة خاطئة فقط للتراجع فورًا ، ومحاولة إزعاجها أفضل ، والفشل مرة أخرى. كما أنهم يتعثرون “التفكير” إلى الأبد ويقدمون تفسيرات لا معنى لها للحصول على إجابات ، أو وصولهم إلى إجابة صحيحة على الفور ، ولكن بعد ذلك استمروا في التفكير في إجابات بديلة دون سبب واضح.

وقال جوها: “فيما يتعلق بالمشاكل الصعبة ، يقول R1 حرفيًا أنه يشعر” بالإحباط “. كان من المضحك أن نرى كيف يحاكي النموذج ما قد يقوله الإنسان. يبقى أن نرى كيف يمكن أن يؤثر “الإحباط” في التفكير على جودة نتائج النموذج. “

R1 الحصول على “الإحباط” على سؤال في مجموعة تحدي أحذية الأحد.ائتمانات الصورة:جوها وآخرون.

النموذج الأفضل أداءً الحالي في المعيار هو O1 برصيد 59 ٪ ، يليه O3-Mini الذي تم إصداره مؤخرًا إلى “جهد التفكير” العالي (47 ٪). (سجل R1 35 ٪.) كخطوة تالية ، يخطط الباحثون لتوسيع اختباراتهم إلى نماذج التفكير الإضافية ، والتي يأملون أن تساعد في تحديد المجالات التي يمكن فيها تعزيز هذه النماذج.

NPR القياس — عشرات النماذج التي اختبرها الفريق على معيارها.ائتمانات الصورة:جوها وآخرون.

وقال جوها: “لا تحتاج إلى درجة الدكتوراه لتكون جيدًا في التفكير ، لذلك يجب أن يكون من الممكن تصميم معايير التفكير التي لا تتطلب معرفة على مستوى الدكتوراه”. “يتيح المعيار مع وصول أوسع لمجموعة أوسع من الباحثين فهم النتائج وتحليلها ، مما قد يؤدي بدوره إلى حلول أفضل في المستقبل. علاوة على ذلك ، نظرًا لأن النماذج الحديثة يتم نشرها بشكل متزايد في الإعدادات التي تؤثر على الجميع ، فإننا نعتقد أن الجميع يجب أن يكونوا قادرين على استفادة من هذه النماذج-وليس-قادرة على ذلك. “

المصدر