الذكاء الاصطناعي يحل “مشكلة حفل الكوكتيل” ويثبت فائدته في المحكمة

eshrag سبتمبر 4, 2024

0 50 4 دقائق

الذكاء الاصطناعي يحل “مشكلة حفل الكوكتيل” ويثبت فائدته في المحكمة

Getty Images أربع نساء في الثلاثينيات من العمر يتحدثن مع المشروبات في أيديهن — في المجموعات، يقوم الأشخاص بحجب الأحاديث حولهم – والآن يمكن للتكنولوجيا أن تفعل الشيء نفسه

إنها “مشكلة حفل الكوكتيل” الدائمة – الوقوف في غرفة مليئة بالناس، وتناول الشراب بين يديك، محاولًا سماع ما يقوله زميلك الضيف.

في الواقع، يتمتع البشر بمهارة ملحوظة في إجراء محادثة مع شخص واحد مع تصفية الأصوات المتنافسة.

ومع ذلك، ربما يكون من المدهش أن هذه مهارة لم تتمكن التكنولوجيا من محاكاتها حتى وقت قريب.

وهذا مهم عندما يتعلق الأمر باستخدام الأدلة الصوتية في قضايا المحكمة. قد تجعل الأصوات في الخلفية من الصعب التأكد من المتحدث وما يقال، مما قد يجعل التسجيلات عديمة الفائدة.

أصبح المهندس الكهربائي كيث ماكيلفين، المؤسس والرئيس التنفيذي للتكنولوجيا في شركة Wave Sciences، مهتمًا بالمشكلة عندما كان يعمل لدى الحكومة الأمريكية في قضية جرائم حرب.

يقول: “ما كنا نحاول معرفته هو من الذي أمر بمذبحة المدنيين. وتضمنت بعض الأدلة تسجيلات لمجموعة من الأصوات تتحدث جميعها في وقت واحد – وعندها علمت ما هي “مشكلة حفل الكوكتيل”.

“لقد نجحت في إزالة الضوضاء مثل أصوات السيارات أو مكيفات الهواء أو المراوح من الكلام، ولكن عندما بدأت في محاولة إزالة الكلام من الكلام، تبين أنها ليست مشكلة صعبة للغاية فحسب، بل كانت إحدى المشكلات الصعبة الكلاسيكية في الصوتيات.

“الأصوات ترتد حول الغرفة، ومن الصعب حلها رياضيًا.”

أسس كيث ماكيلفين شركة Wave Sciences في عام 2008 للتركيز على “مشكلة حفل الكوكتيل”.

يقف بول تشيني كيث ماكلفين أمام لوحة بيضاء ويحمل قلم تحديد — أسس كيث ماكيلفين شركة Wave Sciences في عام 2008 للتركيز على “مشكلة حفل الكوكتيل”.

ويقول إن الحل هو استخدام الذكاء الاصطناعي لمحاولة تحديد وفرز جميع الأصوات المتنافسة بناءً على مصدرها الأصلي في الغرفة.

هذا لا يعني فقط الأشخاص الآخرين الذين قد يتحدثون، بل هناك أيضًا قدر كبير من التداخل من الطريقة التي تنعكس بها الأصوات في جميع أنحاء الغرفة، حيث يتم سماع صوت المتحدث المستهدف بشكل مباشر وغير مباشر.

في عديم الصدى الكمال غرفة – واحدة خالية تمامًا من الصدى – ميكروفون واحد لكل مكبر صوت سيكون كافيًا لالتقاط ما يقوله الجميع؛ لكن في غرفة حقيقية، تتطلب المشكلة ميكروفونًا لكل صوت منعكس أيضًا.

أسس ماكيلفين شركة Wave Sciences في عام 2009، على أمل تطوير تقنية يمكنها فصل الأصوات المتداخلة. في البداية استخدمت الشركة أعدادًا كبيرة من الميكروفونات فيما يُعرف باسم تشكيل شعاع المصفوفة.

ومع ذلك، كانت التعليقات الواردة من الشركاء التجاريين المحتملين هي أن النظام يتطلب عددًا كبيرًا جدًا من الميكروفونات مقابل التكلفة المتضمنة لإعطاء نتائج جيدة في العديد من المواقف – ولن يعمل على الإطلاق في العديد من المواقف الأخرى.

يقول ماكيلفين: “كانت العبارة الشائعة هي أنه إذا تمكنا من التوصل إلى حل يعالج هذه المخاوف، فسيكونون مهتمين للغاية”.

ويضيف: “كنا نعلم أنه لا بد من وجود حل، لأنه يمكنك القيام بذلك بأذنين فقط”.

قامت الشركة أخيرًا بحل المشكلة بعد 10 سنوات من البحث الممول داخليًا وقدمت طلب براءة اختراع في سبتمبر 2019.

استغرق الأمر من شركة Wave Sciences 10 سنوات لحل “مشكلة حفل الكوكتيل”

Keith McElveen موجات صوتية على شاشة كمبيوتر Keith McElveen — استغرق الأمر من شركة Wave Sciences 10 سنوات لحل “مشكلة حفل الكوكتيل”

ما توصلوا إليه هو الذكاء الاصطناعي الذي يمكنه تحليل كيفية ارتداد الصوت حول الغرفة قبل الوصول إلى الميكروفون أو الأذن.

يقول ماكيلفين: “نلتقط الصوت عند وصوله إلى كل ميكروفون، ونتراجع لمعرفة مصدره، ومن ثم، في جوهر الأمر، نقوم بقمع أي صوت لا يمكن أن يأتي من المكان الذي يجلس فيه الشخص”.

يمكن مقارنة التأثير في بعض النواحي عندما تركز الكاميرا على موضوع واحد وتطمس المقدمة والخلفية.

“لا تبدو النتائج واضحة تمامًا عندما لا يمكنك سوى استخدام تسجيل صاخب جدًا للتعلم منه، لكنها لا تزال مذهلة.”

تم استخدام هذه التكنولوجيا لأول مرة في الطب الشرعي في العالم الحقيقي في قضية قتل بالولايات المتحدة، حيث أثبتت الأدلة التي تمكنت من تقديمها أنها محورية في الإدانات.

بعد إلقاء القبض على قاتلين مأجورين بتهمة قتل رجل، أراد مكتب التحقيقات الفيدرالي إثبات أنه تم تعيينهما من قبل عائلة تمر بنزاع حول حضانة الأطفال. رتب مكتب التحقيقات الفيدرالي لخداع الأسرة وجعلها تعتقد أنهم تعرضوا للابتزاز بسبب تورطهم – ثم جلسوا ليروا رد الفعل.

في حين كان من السهل إلى حد معقول على مكتب التحقيقات الفيدرالي الوصول إلى الرسائل النصية والمكالمات الهاتفية، شخصيًا أما الاجتماعات في مطعمين فكانت مسألة مختلفة. لكن المحكمة سمحت باستخدام خوارزمية Wave Sciences، مما يعني أن الصوت تحول من كونه غير مقبول إلى دليل محوري.

ومنذ ذلك الحين، قامت مختبرات حكومية أخرى، بما في ذلك في المملكة المتحدة، بإخضاعه لمجموعة من الاختبارات. وتقوم الشركة الآن بتسويق هذه التكنولوجيا للجيش الأمريكي، الذي استخدمها لتحليل إشارات السونار.

ويمكن أن يكون لها أيضًا تطبيقات في مفاوضات الرهائن وسيناريوهات الانتحار، كما يقول السيد ماكيلفين، للتأكد من أنه يمكن سماع طرفي المحادثة – وليس فقط المفاوض الذي يحمل مكبر الصوت.

في أواخر العام الماضي، أصدرت الشركة تطبيقًا برمجيًا يستخدم خوارزمية التعلم الخاصة بها لاستخدامه من قبل المعامل الحكومية التي تقوم بإجراء الطب الشرعي الصوتي والتحليل الصوتي.

في نهاية المطاف تريد Wave إطلاق إصدارات من منتجها لاستخدامها في مكبرات الصوت الذكية

Getty Images أم شابة وابنها الصغير يتحدثان إلى مكبر صوت ذكي على الطاولة أمامهما — في نهاية المطاف تريد Wave إطلاق إصدارات من منتجها لاستخدامها في مكبرات الصوت الذكية

وتهدف في نهاية المطاف إلى تقديم إصدارات مخصصة من منتجها لاستخدامها في أدوات التسجيل الصوتي، والواجهات الصوتية للسيارات، ومكبرات الصوت الذكية، والواقع المعزز والافتراضي، وأجهزة السونار وأجهزة السمع.

لذلك، على سبيل المثال، إذا كنت تتحدث إلى سيارتك أو مكبر الصوت الذكي الخاص بك، فلن يهم إذا كان هناك الكثير من الضوضاء حولك، فسيظل الجهاز قادرًا على فهم ما كنت تقوله.

ويتم بالفعل استخدام الذكاء الاصطناعي في مجالات أخرى من الطب الشرعي أيضًا، وفقًا لمعلم الطب الشرعي تيري أرمينتا من أكاديمية علوم الطب الشرعي.

“مل [machine learning] تحلل النماذج أنماط الصوت لتحديد هوية المتحدثين، وهي عملية مفيدة بشكل خاص في التحقيقات الجنائية حيث يجب التحقق من الأدلة الصوتية”.

“بالإضافة إلى ذلك، يمكن لأدوات الذكاء الاصطناعي اكتشاف التلاعبات أو التعديلات في التسجيلات الصوتية، مما يضمن سلامة الأدلة المقدمة في المحكمة.”

وقد شق الذكاء الاصطناعي طريقه أيضًا إلى جوانب أخرى من التحليل الصوتي أيضًا.

Samarjit Das مع SoundSee الذي يمكنه التنبؤ بعطل السيارة قبل حدوثه

Bosch Samarjit Das يحمل جهاز Bosch SoundSee — Samarjit Das مع SoundSee الذي يمكنه التنبؤ بعطل السيارة قبل حدوثه

لدى Bosch تقنية تسمى SoundSee، والتي تستخدم خوارزميات معالجة الإشارات الصوتية لتحليل، على سبيل المثال، صوت المحرك للتنبؤ بالخلل قبل حدوثه.

يقول الدكتور سامارجيت داس، مدير الأبحاث والتكنولوجيا في شركة Bosch بالولايات المتحدة الأمريكية: “تفتقر قدرات معالجة الإشارات الصوتية التقليدية إلى القدرة على فهم الصوت بالطريقة التي نفعلها نحن البشر”.

“يتيح الذكاء الاصطناعي الصوتي فهمًا أعمق وتفسيرًا دلاليًا لصوت الأشياء من حولنا بشكل أفضل من أي وقت مضى – على سبيل المثال، الأصوات البيئية أو الإشارات الصوتية الصادرة عن الآلات.”

وقد أظهرت الاختبارات الأحدث لخوارزمية Wave Sciences أنه حتى مع وجود ميكروفونين فقط، يمكن أن تؤدي التكنولوجيا نفس أداء الأذن البشرية – وبشكل أفضل عند إضافة المزيد من الميكروفونات.

وقد كشفوا أيضًا شيئًا آخر.

يقول ماكيلفين: “تظهر الرياضيات في جميع اختباراتنا أوجه تشابه ملحوظة مع السمع البشري. هناك القليل من الشذوذات حول ما يمكن أن تفعله الخوارزمية لدينا، ومدى دقتها في القيام بذلك، والتي تشبه بشكل مدهش بعض الشذوذات الموجودة في السمع البشري”. .

“نحن نشك في أن الدماغ البشري ربما يستخدم نفس الرياضيات، وهي أنه عند حل مشكلة حفل الكوكتيل، ربما عثرنا على ما يحدث بالفعل في الدماغ.”