تقنية

تدعي شركة Cartesia أن الذكاء الاصطناعي الخاص بها فعال بما يكفي للتشغيل في أي مكان تقريبًا


لقد أصبح تطوير الذكاء الاصطناعي وتشغيله مكلفًا بشكل متزايد. قد تصل تكاليف عمليات الذكاء الاصطناعي في OpenAI إلى 7 مليارات دولار هذا العام، في حين أشار الرئيس التنفيذي لشركة Anthropic مؤخرًا إلى أن النماذج التي تبلغ تكلفتها أكثر من 10 مليارات دولار قد تصل قريبًا.

لذا فإن البحث جارٍ عن طرق لجعل الذكاء الاصطناعي أرخص.

يركز بعض الباحثين على تقنيات تحسين بنيات النماذج الحالية، أي البنية والمكونات التي تجعل النماذج فعالة. ويقوم آخرون بتطوير بنيات جديدة يعتقدون أن لديها فرصة أفضل للتوسع بتكلفة معقولة.

كاران جويل موجود في المعسكر الأخير. في الشركة الناشئة، ساعد في تأسيس شركة Cartesia، وكان جويل يعمل على ما يسميه نماذج مساحة الحالة (SSMs)، وهي بنية نموذجية أحدث وعالية الكفاءة يمكنها التعامل مع كميات كبيرة من البيانات – النصوص والصور وما إلى ذلك – في وقت واحد .

وقال جويل لـ TechCrunch: “نعتقد أن بنيات النماذج الجديدة ضرورية لبناء نماذج ذكاء اصطناعي مفيدة حقًا”. “إن صناعة الذكاء الاصطناعي هي مساحة تنافسية، تجارية ومفتوحة المصدر على حد سواء، وبناء أفضل نموذج أمر بالغ الأهمية لتحقيق النجاح.”

الجذور الأكاديمية

قبل انضمامه إلى كارتيسيا، كان جويل حاصلًا على درجة الدكتوراه. مرشح في مختبر الذكاء الاصطناعي بجامعة ستانفورد، حيث كان يعمل تحت إشراف عالم الكمبيوتر كريستوفر ري، من بين آخرين. أثناء وجوده في جامعة ستانفورد، التقى جويل بألبرت جو، وهو زميل دكتوراه. مرشحًا في المختبر، وقام الاثنان برسم الخطوط العريضة لما سيصبح SSM.

حصل جويل في النهاية على وظيفة في شركة Snorkel AI، ثم في شركة Salesforce، بينما أصبح جو أستاذًا مساعدًا في جامعة كارنيجي ميلون. لكن غو وجويل استمرا في دراسة نماذج SSM، وأصدرا العديد من الأوراق البحثية المحورية حول الهندسة المعمارية.

في عام 2023، قرر جو وجويل – مع اثنين من أقرانهما السابقين في جامعة ستانفورد، أرجون ديساي، وبراندون يانج – توحيد الجهود لإطلاق مشروع “كارتيسيا” لتسويق أبحاثهما تجاريًا.

الفريق المؤسس لكارتيسيا. من اليسار إلى اليمين: براندون يانغ، كاران جويل، ألبرت جو، وأرجون ديساي. اعتمادات الصورة:ديكارتيا

تقف شركة Cartesia، التي يضم فريقها المؤسس أيضًا Ré، وراء العديد من مشتقات Mamba، والتي ربما تكون SSM الأكثر شعبية اليوم. بدأ جو والأستاذ تري داو من جامعة برينستون مشروع Mamba كمشروع بحثي مفتوح في ديسمبر الماضي، واستمرا في تحسينه من خلال الإصدارات اللاحقة.

تعتمد Cartesia على Mamba بالإضافة إلى تدريب وحدات SSM الخاصة بها. مثل جميع أجهزة SSM، تمنح شركة Cartesia الذكاء الاصطناعي شيئًا يشبه الذاكرة العاملة، مما يجعل النماذج أسرع – وربما أكثر كفاءة – في كيفية اعتمادها على قوة الحوسبة.

SSMs مقابل المحولات

معظم تطبيقات الذكاء الاصطناعي اليوم، من ChatGPT إلى Sora، مدعومة بنماذج ذات بنية محولات. عندما يقوم المحول بمعالجة البيانات، فإنه يضيف إدخالات إلى شيء يسمى “الحالة المخفية” “لتذكر” ما قام بمعالجته. على سبيل المثال، إذا كان النموذج يشق طريقه عبر كتاب، فقد تكون قيم الحالة المخفية عبارة عن تمثيلات للكلمات الموجودة في الكتاب.

تعد الحالة المخفية جزءًا من سبب قوة المحولات. ولكنه أيضًا سبب عدم كفاءتهم. “لقول” حتى كلمة واحدة عن كتاب استوعبه المحول للتو، يجب على النموذج أن يقوم بمسح حالته المخفية بالكامل – وهي مهمة تتطلب حسابيًا مثل إعادة قراءة الكتاب بأكمله.

في المقابل، تقوم أجهزة SSM بضغط كل نقطة بيانات سابقة في نوع من الملخص لكل ما رأوه من قبل. ومع تدفق البيانات الجديدة، يتم تحديث “حالة” النموذج، ويتجاهل SSM معظم البيانات السابقة.

النتيجة؟ يمكن لوحدات SSM التعامل مع كميات كبيرة من البيانات بينما تتفوق على المحولات في بعض مهام توليد البيانات. مع استمرار تكاليف الاستدلال على هذا النحو، يعد هذا اقتراحًا جذابًا بالفعل.

المخاوف الأخلاقية

تعمل Cartesia كمختبر أبحاث مجتمعي، حيث تعمل على تطوير SSMs بالشراكة مع المنظمات الخارجية وكذلك داخل الشركة. Sonic، أحدث مشروع للشركة، هو جهاز SSM يمكنه استنساخ صوت الشخص أو إنشاء صوت جديد وضبط النغمة والإيقاع في التسجيل.

يدعي Goel أن Sonic، المتوفر من خلال واجهة برمجة التطبيقات (API) ولوحة تحكم الويب، هو النموذج الأسرع في فئته. وقال: “إن Sonic عبارة عن عرض لكيفية تفوق أجهزة SSM في البيانات ذات السياق الطويل، مثل الصوت، مع الحفاظ على أعلى شريط أداء عندما يتعلق الأمر بالاستقرار والدقة”.

ديكارتيا
يستطيع نموذج Cartesia’s Sonic تخصيص الكلام بدرجة معقولة، بما في ذلك PROSODY. اعتمادات الصورة:ديكارتيا

على الرغم من أن شركة Cartesia تمكنت من شحن المنتجات بسرعة، إلا أنها تعثرت في العديد من المخاطر الأخلاقية نفسها التي ابتليت بها صانعي نماذج الذكاء الاصطناعي الآخرين.

قامت شركة كارتيسيا بتدريب بعض أجهزة SSM الخاصة بها على الأقل على The Pile، وهي مجموعة بيانات مفتوحة معروفة باحتوائها على كتب محمية بحقوق الطبع والنشر غير مرخصة. تجادل العديد من شركات الذكاء الاصطناعي بأن مبدأ الاستخدام العادل يحميها من دعاوى الانتهاك. لكن هذا لم يمنع المؤلفين من مقاضاة شركتي ميتا ومايكروسوفت، بالإضافة إلى آخرين، بزعم تدريب النماذج على The Pile.

وليس لدى Cartesia سوى القليل من الضمانات الواضحة لمستنسخ الصوت الذي يعمل بالطاقة الصوتية. قبل بضعة أسابيع، تمكنت من إنشاء نسخة من صوت نائبة الرئيس السابقة كامالا هاريس باستخدام خطابات الحملة الانتخابية (استمع أدناه). تتطلب أداة Cartesia فقط تحديد مربع يشير إلى أنك ستلتزم بشروط الخدمة الخاصة ببدء التشغيل.

ليس بالضرورة أن تكون Cartesia أسوأ في هذا الصدد من أدوات استنساخ الصوت الأخرى الموجودة في السوق. مع وجود تقارير عن استنساخ الصوت الذي يتفوق على الشيكات الأمنية المصرفية، فإن البصريات ليست مذهلة.

لن يقول جويل أن كارتيسيا لم تعد تدرب العارضات على The Pile. لكنه تناول مشكلات الإشراف، حيث أخبر موقع TechCrunch أن Cartesia لديه أنظمة “مراجعة آلية ويدوية” مطبقة، ويعمل “على أنظمة للتحقق الصوتي والعلامة المائية”.

وقال جويل: “لقد خصصنا فرقًا لاختبار جوانب مثل الأداء الفني وسوء الاستخدام والتحيز”. “نحن أيضًا نقيم شراكات مع مدققين خارجيين لتوفير تحقق مستقل إضافي من سلامة وموثوقية نماذجنا… ونحن ندرك أن هذه عملية مستمرة تتطلب تحسينًا مستمرًا.”

الأعمال الناشئة

يقول جويل إن “المئات” من العملاء يدفعون مقابل الوصول إلى Sonic API، وهو خط الإيرادات الأساسي لشركة Cartesia، بما في ذلك تطبيق الاتصال الآلي Goodcall. واجهة برمجة تطبيقات Cartesia مجانية لما يصل إلى 100000 حرف للقراءة بصوت عالٍ، وتبلغ تكلفة الخطة الأغلى 299 دولارًا شهريًا لـ 8 ملايين حرف. (تقدم Cartesia أيضًا طبقة مؤسسية مع دعم مخصص وحدود مخصصة.)

بشكل افتراضي، تستخدم شركة كارتيسيا بيانات العملاء لتدريب نماذجها – وهي سياسة لم يسمع بها من قبل، ولكن من غير المرجح أن تلقى استحسان المستخدمين المهتمين بالخصوصية. يشير Goal إلى أنه يمكن للمستخدمين إلغاء الاشتراك إذا رغبوا في ذلك، وأن Cartesia تقدم سياسات احتفاظ مخصصة للمؤسسات الأكبر حجمًا.

لا يبدو أن ممارسات البيانات التي تتبعها Cartesia تضر الأعمال، على الرغم من قيمتها – على الأقل ليس بينما تتمتع Cartesia بميزة تقنية. يقول الرئيس التنفيذي لشركة Goodcall Bob Summers إنه اختار Sonic لأنه كان النموذج الوحيد لتوليد الصوت بزمن وصول أقل من 90 مللي ثانية.

“[It] وأضاف سامرز: “لقد تفوقت على أفضل بديل تالي لها بمعامل أربعة”.

جودكال
تعتمد خدمة “وكيل” الذكاء الاصطناعي الخاصة بـ Goodcall على واجهة برمجة تطبيقات Sonic API الخاصة بـ Cartesia. اعتمادات الصورة:جودكال

اليوم، يتم استخدام Sonic للألعاب والدبلجة الصوتية والمزيد. لكن جويل يعتقد أن هذا مجرد خدش سطحي لما يمكن أن تفعله أجهزة SSM.

تتمثل رؤيته في النماذج التي تعمل على أي جهاز وتفهم وتولد أي طريقة للبيانات – النصوص والصور ومقاطع الفيديو وما إلى ذلك – على الفور تقريبًا. وفي خطوة صغيرة نحو ذلك، أطلقت Cartesia هذا الصيف نسخة تجريبية من Sonic On-Device، وهي نسخة من Sonic محسنة للتشغيل على الهواتف والأجهزة المحمولة الأخرى لتطبيقات مثل الترجمة في الوقت الفعلي.

إلى جانب Sonic On-Device، نشرت Cartesia مكتبة Edge، وهي مكتبة برمجيات لتحسين أجهزة SSM لتكوينات الأجهزة المختلفة، وRene، وهو نموذج لغة مدمج.

وقال جويل: “لدينا رؤية كبيرة وطويلة المدى لنصبح النموذج الأساسي متعدد الوسائط لكل جهاز”. “تتضمن خريطة الطريق طويلة المدى لدينا تطوير نماذج الذكاء الاصطناعي متعددة الوسائط، بهدف إنشاء معلومات استخباراتية في الوقت الفعلي يمكنها التفكير في سياقات ضخمة.”

إذا حدث ذلك، فسيتعين على شركة Cartesia إقناع العملاء الجدد المحتملين بأن تصميمها المعماري يستحق المعاناة من منحنى التعلم. سيتعين عليها أيضًا أن تظل في صدارة البائعين الآخرين الذين يقومون بتجربة بدائل المحولات.

قامت الشركات الناشئة Zephyra وMistral وAI21 Labs بتدريب نماذج هجينة تعتمد على مامبا. وفي مكان آخر، تعمل شركة Liquid AI، بقيادة نجمة الروبوتات دانييلا روس، على تطوير بنيتها الخاصة.

يؤكد جويل أن شركة كارتيسيا المكونة من 26 موظفًا في وضع يسمح لها بالنجاح، ويرجع الفضل في ذلك جزئيًا إلى ضخ الأموال الجديدة. أغلقت الشركة هذا الشهر جولة تمويل بقيمة 22 مليون دولار بقيادة Index Ventures، ليصل إجمالي تمويل Cartesia إلى 27 مليون دولار.

يرى شاردول شاه، الشريك في شركة Index Ventures، أن تكنولوجيا Cartesia ستقود يومًا ما تطبيقات خدمة العملاء والمبيعات والتسويق والروبوتات والأمن والمزيد.

وقال: “من خلال تحدي الاعتماد التقليدي على البنى القائمة على المحولات، فتحت Cartesia طرقًا جديدة لبناء تطبيقات الذكاء الاصطناعي في الوقت الفعلي وفعالة من حيث التكلفة وقابلة للتطوير”. “يتطلب السوق نماذج أسرع وأكثر كفاءة يمكن تشغيلها في أي مكان – من مراكز البيانات إلى الأجهزة. إن تقنية Cartesia في وضع فريد للوفاء بهذا الوعد ودفع الموجة التالية من ابتكارات الذكاء الاصطناعي.

كما شاركت A* Capital وConviction و General Catalyst وLightspeed وSV Angel في جولة التمويل الأخيرة لشركة Cartesia ومقرها سان فرانسيسكو.



المصدر


اكتشاف المزيد من اشراق اون لاين

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من اشراق اون لاين

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading