نموذج الاستدلال الخاص بالذكاء الاصطناعي الخاص بـ OpenAI “يفكر” باللغة الصينية أحيانًا ولا أحد يعرف السبب حقًا
بعد وقت قصير من إطلاق OpenAI لـ o1، أول نموذج ذكاء اصطناعي “استدلالي”، بدأ الناس يلاحظون ظاهرة غريبة. في بعض الأحيان، يبدأ النموذج في “التفكير” باللغة الصينية، أو الفارسية، أو أي لغة أخرى – حتى عندما يُطرح عليه سؤال باللغة الإنجليزية.
عند وجود مشكلة يجب حلها – على سبيل المثال، “كم عدد حروف الراء في كلمة “فراولة؟”” – سيبدأ o1 عملية “التفكير”، ويصل إلى إجابة عن طريق تنفيذ سلسلة من خطوات الاستدلال. إذا كان السؤال مكتوبًا باللغة الإنجليزية، فسيكون الرد النهائي لـ o1 باللغة الإنجليزية. لكن النموذج سينفذ بعض الخطوات بلغة أخرى قبل أن يتوصل إلى استنتاجه.
“[O1] قال أحد المستخدمين على موقع Reddit: “بدأت بشكل عشوائي بالتفكير باللغة الصينية في منتصف الطريق”.
“لماذا فعلت [o1] ابدأ بالتفكير بشكل عشوائي باللغة الصينية؟” سأل مستخدم آخر في منشور على X. “لم يكن أي جزء من المحادثة (أكثر من 5 رسائل) باللغة الصينية.”
لماذا بدأ o1 pro بالتفكير بشكل عشوائي باللغة الصينية؟ لم يكن أي جزء من المحادثة (أكثر من 5 رسائل) باللغة الصينية… مثير جدًا للاهتمام… تأثير بيانات التدريب pic.twitter.com/yZWCzoaiit
– ريشاب جاين (@RishabJainK) 9 يناير 2025
لم يقدم OpenAI تفسيرًا لسلوك o1 الغريب، أو حتى الاعتراف به. إذن ما الذي قد يحدث؟
حسنًا، خبراء الذكاء الاصطناعي ليسوا متأكدين. لكن لديهم بعض النظريات.
أشار العديد من مستخدمي X، بما في ذلك الرئيس التنفيذي لشركة Hugging Face Clément Delangue، إلى حقيقة أن نماذج الاستدلال مثل o1 يتم تدريبها على مجموعات البيانات التي تحتوي على الكثير من الأحرف الصينية. ادعى تيد شياو، الباحث في Google DeepMind، أن الشركات بما في ذلك OpenAI تستخدم خدمات تصنيف البيانات الصينية التابعة لجهات خارجية، وأن التحول إلى اللغة الصينية هو مثال على “التأثير اللغوي الصيني على التفكير”.
“[Labs like] الاستفادة من OpenAI والأنثروبي [third-party] “خدمات تصنيف البيانات لبيانات الاستدلال على مستوى الدكتوراه للعلوم والرياضيات والبرمجة”، كتب شياو في منشور على X.[F]أو توافر العمالة المتخصصة وأسباب التكلفة، فإن العديد من مزودي البيانات هؤلاء يقع مقرهم في الصين.
تساعد التسميات، المعروفة أيضًا بالعلامات أو التعليقات التوضيحية، النماذج على فهم البيانات وتفسيرها أثناء عملية التدريب. على سبيل المثال، قد تأخذ التسميات المخصصة لتدريب نموذج التعرف على الصور شكل علامات حول الكائنات أو التسميات التوضيحية التي تشير إلى كل شخص أو مكان أو كائن مصور في الصورة.
أظهرت الدراسات أن التسميات المتحيزة يمكن أن تنتج نماذج متحيزة. على سبيل المثال، من المرجح أن يقوم المعلق العادي بتصنيف العبارات باللغة الإنجليزية العامية الأمريكية الأفريقية (AAVE)، وهي القواعد النحوية غير الرسمية التي يستخدمها بعض الأمريكيين السود، على أنها سامة، مما أدى إلى قيام أجهزة كشف السمية الرائدة في مجال الذكاء الاصطناعي المدربة على التسميات برؤية AAVE على أنها سامة بشكل غير متناسب.
ومع ذلك، لا يقتنع الخبراء الآخرون بفرضية تصنيف البيانات الصينية o1. ويشيرون إلى أن o1 من المرجح أن يتحول إلى اللغة الهندية أو التايلاندية أو لغة أخرى غير الصينية أثناء البحث عن حل.
بدلًا من ذلك، يقول هؤلاء الخبراء، ربما تستخدم o1 ونماذج الاستدلال الأخرى ببساطة اللغات التي يجدونها أكثر كفاءة لتحقيق هدف ما (أو الهلوسة).
قال ماثيو جوزديال، الباحث في الذكاء الاصطناعي والأستاذ المساعد في جامعة ألبرتا، لـ TechCrunch: “النموذج لا يعرف ما هي اللغة، أو أن اللغات مختلفة”. “الأمر كله مجرد رسالة نصية إليه.”
في الواقع، النماذج لا تعالج الكلمات بشكل مباشر. يستخدمون الرموز بدلاً من ذلك. الرموز يستطيع تكون كلمات، مثل “رائع”. أو يمكن أن تكون مقاطع لفظية، مثل “fan” و”tas” و”tic”. أو يمكن أن تكون حتى أحرفًا فردية في الكلمات – على سبيل المثال “f” و”a” و”n” و”t” و”a” و”s” و”t” و”i” و”c.”
مثل وضع العلامات، يمكن أن تؤدي الرموز المميزة إلى تحيزات. على سبيل المثال، يفترض العديد من المترجمين من كلمة إلى رمز أن المسافة في الجملة تشير إلى كلمة جديدة، على الرغم من حقيقة أنه ليست كل اللغات تستخدم المسافات لفصل الكلمات.
ويتفق تيزين وانغ، مهندس البرمجيات في شركة Hugging Face الناشئة للذكاء الاصطناعي، مع Guzdial على أن التناقضات اللغوية في النماذج المنطقية يمكن تفسيرها من خلال الارتباطات التي تم إنشاؤها أثناء التدريب.
كتب وانغ في منشور على X: “من خلال احتضان كل الفروق اللغوية، نقوم بتوسيع النظرة العالمية للنموذج ونسمح له بالتعلم من النطاق الكامل للمعرفة الإنسانية”. “على سبيل المثال، أفضل إجراء الرياضيات باللغة الصينية لأن كل رقم يمثل واحدًا فقط مقطع لفظي، مما يجعل الحسابات واضحة وفعالة. ولكن عندما يتعلق الأمر بموضوعات مثل التحيز اللاواعي، فإنني أتحول تلقائيًا إلى اللغة الإنجليزية، ويرجع ذلك أساسًا إلى أن هذا هو المكان الذي تعلمت فيه هذه الأفكار لأول مرة واستوعبتها.
نظرية وانغ معقولة. النماذج هي آلات احتمالية، في نهاية المطاف. ومن خلال تدريبهم على العديد من الأمثلة، يتعلمون أنماطًا للتنبؤ، مثل كيف أن عبارة “إلى من” في رسالة البريد الإلكتروني تسبق عادةً عبارة “قد يهمك الأمر”.
لكن لوكا سولديني، عالم الأبحاث في معهد ألين للذكاء الاصطناعي غير الربحي، حذر من أننا لا نستطيع أن نعرف على وجه اليقين. وقال لـ TechCrunch: “من المستحيل دعم هذا النوع من المراقبة على نظام الذكاء الاصطناعي المنتشر نظرًا لمدى غموض هذه النماذج”. “إنها إحدى الحالات العديدة التي توضح أهمية الشفافية في كيفية بناء أنظمة الذكاء الاصطناعي.”
في غياب إجابة من OpenAI، لم يبق أمامنا سوى التفكير في سبب تفكيرنا في الأغاني باللغة الفرنسية والبيولوجيا التركيبية بلغة الماندرين.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.