الأسلوب الشائع لجعل الذكاء الاصطناعي أكثر كفاءة له عيوبه
إحدى التقنيات الأكثر استخدامًا على نطاق واسع لجعل نماذج الذكاء الاصطناعي أكثر كفاءة، وهي تقنية التكميم، لها حدود، وقد تقترب الصناعة منها بسرعة.
في سياق الذكاء الاصطناعي، يشير التكميم إلى خفض عدد البتات – أصغر الوحدات التي يمكن لجهاز الكمبيوتر معالجتها – اللازمة لتمثيل المعلومات. خذ بعين الاعتبار هذا التشبيه: عندما يسألك شخص ما عن الوقت، فمن المحتمل أن تقول “ظهرًا” – وليس “أوه ألف وألف وثانية وأربعة مللي ثانية”. هذا هو التكميم. كلتا الإجابتين صحيحتان، لكن إحداهما أكثر دقة قليلاً. يعتمد مقدار الدقة التي تحتاجها بالفعل على السياق.
تتكون نماذج الذكاء الاصطناعي من عدة مكونات يمكن قياسها كميًا – في معلمات معينة، تستخدم نماذج المتغيرات الداخلية لإجراء تنبؤات أو قرارات. وهذا أمر مناسب، مع الأخذ في الاعتبار أن النماذج تقوم بملايين العمليات الحسابية عند تشغيلها. النماذج الكمية التي تحتوي على عدد أقل من البتات التي تمثل معلماتها تكون أقل تطلبًا من الناحية الرياضية، وبالتالي من الناحية الحسابية. (لكي نكون واضحين، هذه عملية مختلفة عن “التقطير”، وهي عملية تشذيب أكثر انتقائية للمعلمات).
لكن التكميم قد يكون له مقايضات أكثر مما كان مفترضا في السابق.
النموذج المتقلص باستمرار
وفقاً لدراسة أجراها باحثون في جامعات هارفارد، وستانفورد، ومعهد ماساتشوستس للتكنولوجيا، وداتابريكس، وكارنيجي ميلون، فإن النماذج الكمية تؤدي أداءً أسوأ إذا تم تدريب النسخة الأصلية غير الكمية من النموذج على مدى فترة طويلة على الكثير من البيانات. بمعنى آخر، عند نقطة معينة، قد يكون من الأفضل تدريب نموذج أصغر بدلاً من تقليص نموذج كبير.
قد يكون ذلك بمثابة أخبار سيئة لشركات الذكاء الاصطناعي التي تقوم بتدريب نماذج كبيرة للغاية (معروفة بتحسين جودة الإجابات) ومن ثم قياسها في محاولة لجعل خدمتها أقل تكلفة.
لقد بدأت التأثيرات تظهر بالفعل. قبل بضعة أشهر، أفاد المطورون والأكاديميون أن تكميم نموذج Llama 3 الخاص بـ Meta يميل إلى أن يكون “أكثر ضررًا” مقارنة بالنماذج الأخرى، ربما بسبب الطريقة التي تم تدريبه بها.
“في رأيي، التكلفة الأولى التي يتحملها الجميع في مجال الذكاء الاصطناعي هي الاستدلال وستظل كذلك، ويظهر عملنا أن إحدى الطرق المهمة لتقليلها لن تنجح إلى الأبد”، تانيشك كومار، طالب رياضيات بجامعة هارفارد والمؤلف الأول في هذا المجال. ورقة، وقال TechCrunch.
على عكس الاعتقاد الشائع، فإن الاستدلال على نموذج الذكاء الاصطناعي – تشغيل نموذج، كما هو الحال عندما يجيب ChatGPT على سؤال – غالبًا ما يكون أكثر تكلفة في مجمله من التدريب النموذجي. ولنتأمل هنا على سبيل المثال أن شركة جوجل أنفقت ما يقدر بنحو 191 مليون دولار لتدريب أحد نماذجها الرائدة من طراز جيميني ــ وهو مبلغ ضخم بكل تأكيد. ولكن إذا استخدمت الشركة نموذجًا لتوليد إجابات مكونة من 50 كلمة فقط لنصف جميع طلبات بحث Google، فإنها ستنفق ما يقرب من 6 مليارات دولار سنويًا.
تبنت مختبرات الذكاء الاصطناعي الكبرى نماذج تدريب على مجموعات بيانات ضخمة على افتراض أن “التوسيع” – أي زيادة كمية البيانات والحوسبة المستخدمة في التدريب – سيؤدي إلى ذكاء اصطناعي أكثر قدرة على نحو متزايد.
على سبيل المثال، قامت Meta بتدريب Llama 3 على مجموعة مكونة من 15 تريليون رمز. (تمثل الرموز أجزاء من البيانات الأولية؛ مليون رمز يساوي حوالي 750 ألف كلمة.) تم تدريب الجيل السابق، Llama 2، على 2 تريليون رمز “فقط”. في أوائل ديسمبر، أصدرت شركة Meta نموذجًا جديدًا، Llama 3.3 70B، والذي تقول الشركة إنه “يحسن الأداء الأساسي بتكلفة أقل بكثير”.
وتشير الأدلة إلى أن التوسع يؤدي في نهاية المطاف إلى عوائد متناقصة؛ وبحسب ما ورد قامت شركة Anthropic وGoogle مؤخرًا بتدريب نماذج ضخمة لم ترقى إلى مستوى التوقعات المعيارية الداخلية. ولكن ليس هناك ما يشير إلى أن الصناعة مستعدة للابتعاد بشكل هادف عن أساليب التوسع الراسخة هذه.
ما مدى دقة ذلك بالضبط؟
لذا، إذا كانت المختبرات مترددة في تدريب النماذج على مجموعات بيانات أصغر، فهل هناك طريقة لجعل النماذج أقل عرضة للتدهور؟ ربما. يقول كومار إنه ومؤلفون مشاركين وجدوا أن نماذج التدريب “ذات الدقة المنخفضة” يمكن أن تجعلها أكثر قوة. اصبروا معنا للحظة ونحن نغوص قليلاً.
تشير “الدقة” هنا إلى عدد الأرقام التي يمكن أن يمثلها نوع البيانات الرقمية بدقة. أنواع البيانات هي مجموعات من قيم البيانات، والتي يتم تحديدها عادةً بواسطة مجموعة من القيم المحتملة والعمليات المسموح بها؛ على سبيل المثال، يستخدم نوع البيانات FP8 8 بتات فقط لتمثيل رقم الفاصلة العائمة.
يتم تدريب معظم النماذج اليوم على دقة 16 بت أو “نصف دقة” و”كمية ما بعد التدريب” بدقة 8 بت. يتم تحويل بعض مكونات النموذج (على سبيل المثال، معلماته) إلى تنسيق أقل دقة على حساب بعض الدقة. فكر في الأمر مثل إجراء العمليات الحسابية لأقرب منزلة عشرية ثم تقريبها إلى أقرب رقم عشر، مما يمنحك غالبًا أفضل ما في العالمين.
يضغط بائعو الأجهزة مثل Nvidia من أجل دقة أقل لاستدلال النموذج الكمي. تدعم شريحة Blackwell الجديدة للشركة دقة 4 بت، وتحديدًا نوع بيانات يسمى FP4؛ لقد عرضت Nvidia هذا باعتباره نعمة لمراكز البيانات ذات الذاكرة والطاقة المقيدة.
لكن دقة القياس الكمي المنخفضة للغاية قد لا تكون مرغوبة. وفقًا لكومار، ما لم يكن النموذج الأصلي كبيرًا بشكل لا يصدق من حيث عدد المعلمات، فإن الدقة الأقل من 7 أو 8 بت قد تشهد انخفاضًا ملحوظًا في الجودة.
إذا كان كل هذا يبدو تقنيًا بعض الشيء، فلا تقلق، فهو كذلك بالفعل. لكن الخلاصة هي ببساطة أن نماذج الذكاء الاصطناعي ليست مفهومة بشكل كامل، وأن الاختصارات المعروفة التي تعمل في العديد من أنواع العمليات الحسابية لا تعمل هنا. لن تقول “ظهرًا” إذا سألك شخص ما متى بدأ اندفاعة لمسافة 100 متر، أليس كذلك؟ الأمر ليس واضحًا تمامًا، بالطبع، لكن الفكرة هي نفسها:
وخلص كومار إلى القول: “النقطة الأساسية في عملنا هي أن هناك قيودًا لا يمكنك تجاوزها بسذاجة”. “نأمل أن يضيف عملنا فارقًا بسيطًا إلى المناقشة التي غالبًا ما تسعى إلى الحصول على إعدادات افتراضية منخفضة الدقة للتدريب والاستدلال.”
يعترف كومار بأن دراسته ودراسة زملائه كانت على نطاق صغير نسبيًا، وهم يخططون لاختبارها باستخدام المزيد من النماذج في المستقبل. لكنه يعتقد أن هناك فكرة واحدة على الأقل ستصمد: ليس هناك وجبة غداء مجانية عندما يتعلق الأمر بتخفيض تكاليف الاستدلال.
وقال: “دقة البتات مهمة، وهي ليست مجانية”. “لا يمكنك تقليله إلى الأبد دون معاناة العارضات. تتمتع النماذج بقدرة محدودة، لذا بدلاً من محاولة احتواء كوادريليون من الرموز المميزة في نموذج صغير، في رأيي، سيتم بذل المزيد من الجهد في تنظيم البيانات وتصفيتها بدقة، بحيث يتم وضع البيانات عالية الجودة فقط في نماذج أصغر. أنا متفائل بأن البنى الجديدة التي تهدف بشكل متعمد إلى جعل التدريب منخفض الدقة مستقرًا ستكون مهمة في المستقبل.
نُشرت هذه القصة في الأصل في 17 نوفمبر 2024، وتم تحديثها في 23 ديسمبر بمعلومات جديدة.
اكتشاف المزيد من اشراق اون لاين
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.