تقنية

الصورة الرمزية لـ Nvidia AI كانت موجودة على شاشة جهاز الكمبيوتر الخاص بي وأذهلتني


كشفت Nvidia النقاب عن نموذج أولي للصورة الرمزية للذكاء الاصطناعي في CES 2025 والتي توجد على سطح مكتب جهاز الكمبيوتر الخاص بك. يشبه مساعد الذكاء الاصطناعي R2X إحدى شخصيات ألعاب الفيديو، ويمكنه مساعدتك في التنقل بين التطبيقات على جهاز الكمبيوتر الخاص بك.

يتم عرض الصورة الرمزية لـ R2X وتحريكها باستخدام نماذج الذكاء الاصطناعي من Nvidia، ويمكن للمستخدمين تشغيل الصورة الرمزية على شهادات LLM المشهورة التي يختارونها، مثل OpenAI’s GPT-4o أو xAI’s Grok. يمكن للمستخدمين التحدث مع R2X من خلال النص والصوت، أو تحميل الملفات إليه للمعالجة، أو حتى تمكين مساعد الذكاء الاصطناعي من عرض ما يحدث مباشرة على شاشتك أو الكاميرا.

تقوم شركات التكنولوجيا مؤخرًا بإنشاء الكثير من الصور الرمزية للذكاء الاصطناعي، ليس فقط في ألعاب الفيديو ولكن أيضًا للعملاء من المؤسسات والمستهلكين. العروض التجريبية المبكرة غريبة، لكن البعض يعتقد أن هذه الصور الرمزية هي واجهة مستخدم واعدة لمساعدي الذكاء الاصطناعي. مع R2X، تحاول Nvidia الجمع بين إمكانات ألعاب الفيديو التوليدية ومساعدي الذكاء الاصطناعي المتطورين لإنشاء مساعد ذكاء اصطناعي يبدو وكأنه إنسان.

تمامًا مثل ميزة Recall من Microsoft (التي تم تأجيلها بسبب مخاوف تتعلق بالخصوصية)، يمكن لـ R2X التقاط لقطات شاشة ثابتة لشاشتك وتشغيلها من خلال نموذج الذكاء الاصطناعي للمعالجة، على الرغم من إيقاف تشغيل هذه الميزة افتراضيًا. عند تشغيله، يمكنه تقديم ملاحظات حول التطبيقات التي تعمل على جهاز الكمبيوتر الخاص بك، وعلى سبيل المثال، مساعدتك في العمل من خلال مهمة برمجة معقدة.

لا يزال R2X نموذجًا أوليًا، وحتى Nvidia تعترف بأنه لا تزال هناك بعض الأخطاء التي يجب حلها. في العروض التوضيحية مع TechCrunch، كان للصورة الرمزية لـ Nvidia إحساس غريب بالوادي – فقد كان وجهها عالقًا في بعض الأحيان في أوضاع غريبة، وكانت لهجتها تبدو عدوانية قليلاً في بعض الأحيان. وبشكل عام، أعتقد أنه من الغريب أن يحدق بي كائن بشري صغير أثناء قيامي بعملي.

لقد قدم عمومًا تعليمات مفيدة وعرض بدقة ما كان يظهر على الشاشة. ولكن في مرحلة ما، أعطتنا الصورة الرمزية تعليمات غير صحيحة، وبعد ذلك، توقفت الصورة الرمزية عن رؤية الشاشة على الإطلاق. قد تكون هذه مشكلة في نموذج الذكاء الاصطناعي الأساسي (في هذه الحالة، GPT-4o)، لكن المثال يوضح القيود المفروضة على هذه التكنولوجيا المبكرة.

في أحد العروض التوضيحية، أظهر أحد منتجات Nvidia كيف يمكن لـ R2X عرض التطبيقات الموجودة على شاشتك ومساعدتها. على وجه التحديد، ساعدنا R2X في استخدام ميزة التعبئة التوليدية لبرنامج Adobe Photoshop. الصورة التي اخترناها كانت للرئيس التنفيذي لشركة Nvidia Jensen Huang، وهو يقف في مطعم آسيوي مع اثنين من العاملين في المطعم. أصيبت الصورة الرمزية لـ Nvidia بالهلوسة وأعطت تعليمات خاطئة حول مكان العثور على ميزة التعبئة التوليدية. ولكن بعد تبديل نموذج الذكاء الاصطناعي الذي استخدمناه إلى Grok الخاص بـ xAI، استعادت الصورة الرمزية قدراتها على عرض الشاشة.

وفي عرض توضيحي آخر، تمكن R2X من استيعاب PDG من سطح المكتب ثم الإجابة على الأسئلة المتعلقة به. يتم تشغيل هذه العملية من خلال ميزة الجيل المعزز للاسترجاع المحلي، والتي تمنح هذه الصور الرمزية للذكاء الاصطناعي القدرة على سحب المعلومات من مستند ومعالجتها باستخدام LLM الأساسي الخاص بها.

تستخدم Nvidia بعض نماذج الذكاء الاصطناعي من قسم ألعاب الفيديو الخاص بها لتعزيز الطريقة التي تظهر بها هذه الصور الرمزية. لإنشاء الصور الرمزية، تستخدم Nvidia خوارزمية الوجوه العصبية RTX الخاصة بها. لأتمتة حركة الوجه والشفاه واللسان، تستخدم Nvidia نموذجًا جديدًا يسمى Audio2Face™-3D. يبدو أن هذا النموذج قد توقف في بعض النقاط، مما أدى إلى إمساك وجه الصور الرمزية في أوضاع حرجة.

وتقول الشركة أيضًا إن هذه الصور الرمزية R2X ستكون قادرة على الانضمام إلى اجتماعات Microsoft Teams، وتعمل كمساعد شخصي.

يقول أحد قادة منتجات Nvidia إن الشركة تعمل على منح هذه الصور الرمزية للذكاء الاصطناعي قدرات وكيلة أيضًا، حتى يتمكن R2X يومًا ما من اتخاذ الإجراءات على سطح المكتب الخاص بك. ويبدو أن هذه القدرات لا تزال بعيدة المنال، ومن المرجح أن تتطلب شراكات مع صانعي البرمجيات مثل ميكروسوفت وأدوبي، الذين يحاولون تطوير أنظمة وكيلة مماثلة بأنفسهم.

ليس من الواضح على الفور كيف تقوم Nvidia بتوليد الأصوات في هذه المنتجات. يبدو صوت R2X عند استخدام GPT-4o فريدًا من نوعه عن أي من أصوات ChatGPT المعدة مسبقًا، في حين أن برنامج Grok chatbot الخاص بـ xAI لا يحتوي على وضع صوتي على الإطلاق حتى الآن.

تخطط الشركة لفتح مصدر هذه الصور الرمزية في النصف الأول من عام 2025. وترى Nvidia أن هذا بمثابة واجهة مستخدم جديدة للمطورين للبناء عليها، مما يسمح للمستخدمين بتوصيل منتجات برامج الذكاء الاصطناعي المفضلة لديهم أو حتى تشغيل هذه الصور الرمزية محليًا.



المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading