قام اثنان من الطلاب الجامعيين ببناء نموذج خطاب منظمة العفو الدولية لمنافسة دفتر

eshrag أبريل 22, 2025

0 16 2 دقائق

قام اثنان من الطلاب الجامعيين ببناء نموذج خطاب منظمة العفو الدولية لمنافسة دفتر

يقول زوجان من الطلاب الجامعيين ، لا مع خبرة واسعة النطاق من الذكاء الاصطناعي ، أنهما قاموا بإنشاء نموذج منظمة العفو الدولية متاحًا بشكل علني يمكنه إنشاء مقاطع على طراز البودكاست المشابهة لـ Google NotbookLM.

سوق أدوات الكلام الاصطناعية شاسعة ومتنامية. Elevenlabs هو واحد من أكبر اللاعبين ، ولكن لا يوجد نقص في المنافسين (انظر Playai ، السمسم ، وهلم جرا). يعتقد المستثمرون أن هذه الأدوات لها إمكانات هائلة. وفقًا لـ PitchBook ، جمعت الشركات الناشئة التي تقوم بتطوير Voice AI Tech أكثر من 398 مليون دولار من تمويل VC العام الماضي.

وقال توبي كيم ، أحد مؤسسي Nari Labs في كوريا ، وهي المجموعة التي تقف وراء النموذج الذي تم إصداره حديثًا ، إنه وزميله المؤسس المشارك بدأوا في التعلم عن الذكاء الاصطناعي قبل ثلاثة أشهر. مستوحى من دفتر NotebookLM ، أرادوا إنشاء نموذج يوفر مزيدًا من التحكم في الأصوات المولدة و “الحرية في البرنامج النصي”.

يقول كيم إنهم استخدموا برنامج Google TPU Research Cloud ، الذي يوفر للباحثين وصولًا مجانيًا إلى رقائق TPU AI للشركة ، لتدريب نموذج NARI ، DIA. عند وزنه عند 1.6 مليار معلمة ، يمكن لـ DIA إنشاء حوار من البرنامج النصي ، مما يتيح للمستخدمين تخصيص نغمات السماعات وإدراج عدم التصرف والسعال والضحك وغيرها من العظة غير اللفظية.

المعلمات هي نماذج المتغيرات الداخلية التي تستخدمها لجعل التنبؤات. عموما ، النماذج مع المزيد من المعلمات أداء أفضل.

متوفر من منصة AI Dev التي تعانق الوجه و Github ، يمكن أن يعمل DIA على معظم أجهزة الكمبيوتر الحديثة مع ما لا يقل عن 10 جيجابايت من VRAM. إنه يولد صوتًا عشوائيًا ما لم يُطلب من وصف للنمط المقصود ، ولكن يمكنه أيضًا استنساخ صوت الشخص.

في اختبار TechCrunch الموجز لـ DIA من خلال عرض الويب الخاص بـ NARI ، عملت DIA بشكل جيد للغاية ، غير مكتملة لتوليد دردشات ثنائية الاتجاه حول أي موضوع. تبدو جودة الأصوات تنافسية مع أدوات أخرى هناك ، ووظيفة الاستنساخ الصوتي هي من بين أسهل هذا المراسل الذي حاوله هذا المراسل.

هذه عينة:

مثل العديد من المولدات الصوتية ، لا تقدم DIA سوى القليل من الضمانات. سيكون من السهل بشكل تافهة صياغة معلومات مضللة أو تسجيل محة. في صفحات مشروع DIA ، لا تشجع NARI إساءة استخدام النموذج على انتحال شخصية أو خداع أو الانخراط في حملات غير مشروعة ، لكن المجموعة تقول إنها “ليست مسؤولة” عن سوء الاستخدام.

لم يكشف Nari عن البيانات التي كشطتها لتدريب DIA. من الممكن تطوير DIA باستخدام محتوى محمي حقوق الطبع والنشر – يلاحظ معلق على أخبار Hacker أن عينة واحدة تبدو مثل مضيفي البودكاست “Planet Money” من NPR. نماذج التدريب على المحتوى المحمي بحقوق الطبع والنشر هي ممارسة واسعة النطاق ولكن مشكوك فيها قانونًا. تدعي بعض شركات الذكاء الاصطناعى أن الاستخدام العادل يحميهم من المسؤولية ، بينما يؤكد حاملي الحقوق أن الاستخدام العادل لا ينطبق على التدريب.

على أي حال ، يقول كيم إن خطة ناري هي إنشاء منصة صوتية اصطناعية ذات “جانب اجتماعي” على رأس DIA والنماذج المستقبلية الأكبر. تعتزم NARI أيضًا إصدار تقرير فني لـ DIA ، وتوسيع دعم النموذج إلى اللغات التي تتجاوز اللغة الإنجليزية.

المصدر