نموذج ذكاء اصطناعي جديد يتفاعل مع البشر لحظياً دون انتظار انتهاء الحديث

كشفت شركة Thinking Machines Lab عن تطوير نموذج ذكاء اصطناعي جديد يحمل اسم Interaction Models، في خطوة تهدف إلى تغيير طريقة تفاعل البشر مع روبوتات الدردشة وأنظمة الذكاء الاصطناعي، عبر تقديم تجربة أقرب إلى المحادثات البشرية الطبيعية دون الحاجة لانتظار انتهاء المستخدم من الحديث.

وبحسب دراسة نشرتها الشركة، فإن النماذج الحالية للذكاء الاصطناعي ما تزال تعتمد على أسلوب تقليدي قائم على تبادل الأدوار، حيث ينتظر المستخدم حتى ينتهي النموذج من الرد، بينما ينتظر النظام بدوره حتى يكتمل حديث المستخدم قبل أن يبدأ الاستجابة.

تفاعل حي ومتزامن

أوضحت الشركة أن النظام الجديد يعتمد على مفهوم التفاعل المتزامن، إذ يستطيع الاستماع والرؤية والتحدث في الوقت نفسه، مع القدرة على تعديل ردوده بشكل لحظي أثناء استمرار الحوار.

ويرى مطورو المشروع أن البشر لا يتواصلون من خلال رسائل منفصلة ومنظمة فقط، بل عبر المقاطعات والتعليقات الفورية والتصحيح اللحظي والإشارات البصرية والصوتية، وهو ما يسعى النموذج الجديد لمحاكاته.

كيف يعمل نموذج Interaction Models؟

يعتمد النموذج على معالجة المحادثة باعتبارها تدفقاً مستمراً للصوت والفيديو والنصوص، وليس كسلسلة أوامر منفصلة. وخلافاً للأنظمة التقليدية، يستمر النموذج في استقبال المعلومات وتحليلها أثناء حديثه، ما يسمح له بتعديل استجاباته فورياً بحسب تغيّر السياق.

كما يستطيع النظام فهم لحظات التردد أو التصحيح الذاتي أثناء الكلام، والتدخل تلقائياً عند الحاجة، إضافة إلى دعمه التحدث والاستماع في الوقت نفسه، وهو ما يتيح إمكانيات مثل الترجمة الفورية الحية أو تصحيح النطق أثناء الحديث.

تقنية “الأدوار المصغرة”

ولتحقيق هذا المستوى من التفاعل الفوري، طورت الشركة بنية تعتمد على ما يسمى بـ Micro-turns أو “الأدوار المصغرة”، وهي وحدات زمنية قصيرة للغاية تبلغ نحو 200 مللي ثانية فقط.

وتسمح هذه التقنية للنظام بمعالجة أجزاء صغيرة ومتتابعة من الصوت أو الفيديو أو النصوص، مع إنتاج ردود متزامنة وتحديث مستمر لسياق المحادثة، ما يجعل التفاعل أقرب إلى الزمن الحقيقي.

قدرات متقدمة للصوت والصورة

يعتمد النموذج كذلك على بنية متعددة الوسائط تتيح استقبال النصوص والصوت والفيديو والصور في الوقت نفسه، مع إمكانية إنتاج ردود صوتية ونصية بصورة متزامنة.

كما أوضحت الشركة أنها تجنبت استخدام أنظمة ترميز ضخمة للصوت والفيديو، واعتمدت بدلاً من ذلك على معالجة خفيفة ومباشرة للبيانات السمعية والبصرية داخل النموذج نفسه، بهدف تقليل زمن الاستجابة وتحسين سلاسة التفاعل.

تجربة أكثر طبيعية مع المستخدم

ووفقاً للشركة، يستطيع النموذج تنفيذ مهام متعددة أثناء المحادثة، مثل إجراء عمليات بحث، أو التعليق المباشر على ما يظهر على الشاشة، أو تصحيح أخطاء برمجية بشكل فوري، أو متابعة أداء التمارين الرياضية وعدّ التكرارات لحظياً.

كما يعتمد النظام على بنية مزدوجة تجمع بين نموذج تفاعلي سريع للتواصل المباشر، ونموذج خلفي مسؤول عن عمليات التفكير المعقدة وتنفيذ المهام طويلة الأمد، ما يسمح بالجمع بين سرعة الاستجابة والقدرات التحليلية المتقدمة.

تفوق على المنافسين

أكدت الشركة أن نموذجها TML-Interaction-Small حقق نتائج متقدمة مقارنة بعدد من أنظمة المحادثة الحالية التابعة لشركات مثل OpenAI وجوجل وعلي بابا، خاصة فيما يتعلق بسرعة الاستجابة وجودة التفاعل اللحظي وفهم الإشارات البصرية والصوتية.

وأشارت الدراسة إلى أن النموذج الحالي يعتمد على بنية ضخمة تضم 276 مليار معامل، مع تفعيل 12 مليار فقط أثناء التشغيل، فيما تعمل الشركة على تطوير نسخ أكثر كفاءة وأقل استهلاكاً للموارد.

مستقبل الذكاء الاصطناعي التفاعلي

ترى Thinking Machines Lab أن مستقبل الذكاء الاصطناعي لن يعتمد فقط على قوة التفكير والتحليل، بل أيضاً على تطوير أساليب تفاعل طبيعية ومرنة تجعل التواصل بين الإنسان والآلة أكثر سلاسة وواقعية.

وتخطط الشركة لإطلاق معاينة بحثية محدودة للنظام خلال الأشهر المقبلة، بهدف جمع ملاحظات المستخدمين والباحثين قبل التوسع في إتاحته بشكل أوسع لاحقاً هذا العام.

🔗 الرابط المختصر