تقنية

توصلت دراسة جديدة إلى أن الذكاء الاصطناعي ليس جيدًا في التاريخ


قد يتفوق الذكاء الاصطناعي في مهام معينة مثل البرمجة أو إنشاء بودكاست. لكنها تجد صعوبة في اجتياز امتحان تاريخ رفيع المستوى، حسبما وجدت دراسة جديدة.

أنشأ فريق من الباحثين معيارًا جديدًا لاختبار ثلاثة نماذج لغوية كبيرة (LLMs) – GPT-4 من OpenAI، وMeta’s Llama، وGemini من Google – حول المسائل التاريخية. يختبر المعيار Hist-LLM صحة الإجابات وفقًا لبنك بيانات التاريخ العالمي Seshat، وهي قاعدة بيانات واسعة للمعرفة التاريخية تحمل اسم إلهة الحكمة المصرية القديمة.

وكانت النتائج، التي تم تقديمها الشهر الماضي في مؤتمر الذكاء الاصطناعي رفيع المستوى NeurIPS، مخيبة للآمال، وفقًا لباحثين تابعين لـ Complexity Science Hub (CSH)، وهو معهد أبحاث مقره في النمسا. كان برنامج LLM الأفضل أداءً هو GPT-4 Turbo، لكنه حقق دقة تبلغ حوالي 46٪ فقط – وهي نسبة ليست أعلى بكثير من التخمين العشوائي.

“الخلاصة الرئيسية من هذه الدراسة هي أن ماجستير إدارة الأعمال، على الرغم من كونه مثيرًا للإعجاب، إلا أنه لا يزال يفتقر إلى عمق الفهم المطلوب للتاريخ المتقدم. قالت ماريا ديل ريو-شانونا، إحدى المؤلفات المشاركة في الدراسة وزميلة: “إنها رائعة بالنسبة للحقائق الأساسية، ولكن عندما يتعلق الأمر بالتحقيق التاريخي الأكثر دقة على مستوى الدكتوراه، فإنهم لم يصلوا بعد إلى مستوى المهمة”. أستاذ علوم الكمبيوتر في جامعة كوليدج لندن.

شارك الباحثون نماذج من الأسئلة التاريخية مع موقع TechCrunch والتي أخطأ فيها طلاب LLM. على سبيل المثال، تم سؤال GPT-4 Turbo عما إذا كان الدرع الحرشفي موجودًا خلال فترة زمنية محددة في مصر القديمة. أجاب ماجستير القانون بنعم، لكن التكنولوجيا لم تظهر في مصر إلا بعد 1500 عام.

لماذا يكون طلاب ماجستير القانون سيئين في الإجابة على الأسئلة التاريخية الفنية، في حين أنهم يمكن أن يكونوا جيدين جدًا في الإجابة على أسئلة معقدة للغاية حول أشياء مثل البرمجة؟ صرح ديل ريو-تشانونا لـ TechCrunch أن السبب على الأرجح هو أن حاملي شهادة الماجستير في القانون يميلون إلى الاستقراء من البيانات التاريخية البارزة جدًا، مما يجعل من الصعب استرجاع المعرفة التاريخية الأكثر غموضًا.

على سبيل المثال، سأل الباحثون GPT-4 عما إذا كان لدى مصر القديمة جيش نظامي محترف خلال فترة تاريخية محددة. في حين أن الإجابة الصحيحة هي لا، أجاب LLM بشكل غير صحيح أنه فعل ذلك. من المحتمل أن يكون هذا بسبب وجود الكثير من المعلومات العامة حول الإمبراطوريات القديمة الأخرى، مثل بلاد فارس، التي كان لديها جيوش دائمة.

قال ديل ريو-شانونا: “إذا تم إخبارك بـ A وB 100 مرة، وC مرة واحدة، ثم سُئل سؤال حول C، فقد تتذكر فقط A وB وتحاول الاستقراء من ذلك”.

وحدد الباحثون أيضًا اتجاهات أخرى، بما في ذلك أن أداء نماذج OpenAI وLlama كان أسوأ في مناطق معينة مثل أفريقيا جنوب الصحراء الكبرى، مما يشير إلى تحيزات محتملة في بيانات التدريب الخاصة بهم.

وقال بيتر تورشين، الذي قاد الدراسة وعضو هيئة التدريس في CSH، إن النتائج تظهر أن ماجستير إدارة الأعمال لا يزال ليس بديلاً عن البشر عندما يتعلق الأمر بمجالات معينة.

لكن الباحثين ما زالوا يأملون أن يتمكن حاملو شهادة الماجستير في القانون من مساعدة المؤرخين في المستقبل. إنهم يعملون على تحسين معيارهم من خلال تضمين المزيد من البيانات من المناطق الممثلة تمثيلا ناقصا وإضافة أسئلة أكثر تعقيدا.

“بشكل عام، في حين أن نتائجنا تسلط الضوء على المجالات التي تحتاج فيها ماجستير إدارة الأعمال إلى تحسين، فإنها تؤكد أيضًا على إمكانية مساعدة هذه النماذج في البحث التاريخي”، كما جاء في الورقة البحثية.



المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading