الذكاء الاصطناعي يتعلم تحديد الأشياء في الصور

طور باحثون أميركيون طريقة تدريب جديدة تُعلّم نماذج الذكاء الاصطناعي المولدة للرؤية واللغة تحديد موقع كائن مخصص، مثل قطة أو جهاز داخل غرفة في مشهد جديد.
يسهل على صاحب كلب، مثلا، تحديد هوية كلبه من بين كلاب أخرى في موقع. لكن إذا أراد شخص ما استخدام نموذج ذكاء اصطناعي توليدي مثل GPT-5 لمراقبة حيوانه الأليف أثناء وجوده في العمل، فقد يفشل النموذج في التعرف على الحيوان. غالبًا ما تتفوق نماذج الرؤية واللغة في التعرف على الأشياء العامة، مثل كلب أو قط أو سيارة في مشهد، لكنها لا تُجيد تحديد مواقع الأشياء المُخصّصة، مثل كلب بعينه.
لمعالجة هذا القصور، قدّم باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) ومختبر الذكاء الاصطناعي MIT-IBM Watson طريقة تدريب جديدة تُعلّم نماذج الرؤية واللغة تحديد مواقع الأشياء والحيوانات المُخصصة في مشهد ما.
تستخدم طريقتهم بيانات تتبع فيديو مُعدّة بعناية، حيث يتم تتبّع الشيء نفسه عبر إطارات متعددة. صمموا مجموعة البيانات بحيث يركز النموذج على الأدلة السياقية لتحديد الكائن المُخصَّص، بدلاً من الاعتماد على المعرفة التي حفظها سابقًا.
عند عرض بعض الصور النموذجية التي تُظهر كائنًا مُخصَّصًا، مثل حيوان أليف لشخص ما، يكون النموذج المُعاد تدريبه أكثر قدرة على تحديد موقع الحيوان الأليف نفسه في صورة جديدة.
تفوقت النماذج المُعاد تدريبها باستخدام طريقتهم على الأنظمة الحديثة في هذه المهمة. والأهم من ذلك، أن أسلوبهم لا يمسّ بقية القدرات العامة للنموذج.
يمكن أن يساعد هذا النهج الجديد أنظمة الذكاء الاصطناعي المستقبلية على تتبع كائنات مُحددة عبر الزمن، مثل حقيبة ظهر طفل، أو تحديد مواقع كائنات مهمة، مثل نوع من الحيوانات قيد الرصد البيئي. كما يُمكن أن يُسهم في تطوير تقنيات مُساعدة تعتمد على الذكاء الاصطناعي تُساعد ضعاف البصر في العثور على عناصر مُحددة في الغرفة.
اقرأ أيضا… الذكاء الاصطناعي ينجح في تصنيف الأجرام النجمية
يقول جيهانزيب ميرزا، باحث في معهد ماساتشوستس للتكنولوجيا ومؤلف رئيسي لورقة بحثية حول هذه التقنية “في نهاية المطاف، نريد أن تكون هذه النماذج قادرة على التعلم من السياق، تمامًا كما يفعل البشر. إذا استطاع النموذج القيام بذلك بشكل جيد، فبدلاً من إعادة تدريبه لكل مهمة جديدة، يمكننا فقط تقديم بعض الأمثلة، وسيستنتج كيفية أداء المهمة من هذا السياق. هذه قدرة فعّالة للغاية”.
وجد الباحثون أن نماذج اللغة الكبيرة تتفوق في التعلم من السياق. إذا زودوا نموذج لغة كبير ببعض الأمثلة على مهمة ما، مثل مسائل الجمع، سيتمكن من تعلم حل مسائل جديدة بناءً على السياق المُقدم.
نموذج الرؤية واللغة (VLM) هو في الأساس نموذج لغة كبير مُتصل به مكون بصري. لذلك، اعتقد باحثو معهد ماساتشوستس للتكنولوجيا أنه سيتحلى بقدرات التعلم السياقية لنموذج لغة كبير. لكن هذا ليس صحيحًا.
يقول ميرزا “لم يتمكن مجتمع البحث من إيجاد إجابة قاطعة لهذه المشكلة تحديدًا حتى الآن”.
شرع الباحثون في تحسين قدرات نماذج الرؤية واللغة على تحديد المواقع السياقية، والذي يتضمن العثور على كائن محدد في صورة جديدة. ركزوا على البيانات المستخدمة لإعادة تدريب نماذج الرؤية واللغة الحالية لمهمة جديدة، وهي عملية تُسمى “الضبط الدقيق”.
تُجمع بيانات الضبط الدقيق النموذجية من مصادر عشوائية، وتُمثل مجموعات من الأشياء اليومية. قد تحتوي إحدى الصور على سيارات متوقفة في الشارع، بينما تحتوي صورة أخرى على باقة أزهار.
يضيف ميرزا “لا يوجد ترابط حقيقي في هذه البيانات. لذا، لا يتعلم النموذج أبدًا التعرف على الشيء نفسه في صور متعددة”.
ولحل هذه المشكلة، طوّر الباحثون مجموعة بيانات جديدة من خلال تجميع عينات من بيانات تتبع الفيديو الموجودة. هذه البيانات عبارة عن مقاطع فيديو تُظهر الشيء نفسه وهو يتحرك في مشهد ما، مثل نمر يمشي عبر أرض عشبية.
قاموا بقص إطارات من هذه الفيديوهات وهيكلة مجموعة البيانات بحيث يتكون كل مُدخل من صور متعددة تُظهر الشيء نفسه في سياقات مختلفة، مع أمثلة على أسئلة وأجوبة حول موقعه.
ويوضح ميرزا “باستخدام صور متعددة لنفس الشيء في سياقات مختلفة، نشجع النموذج على تحديد موقع الشيء محل الاهتمام باستمرار من خلال التركيز على السياق”.
مصطفى أوفى (أبوظبي)