انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر
ميتا صنع عدة الإعلانات الرئيسية للروبوتات وأنظمة الذكاء الاصطناعي المجسدة هذا الأسبوع. يتضمن ذلك إطلاق المعايير والتحف لتحسين الفهم والتفاعل مع العالم المادي. تركز Sparsh وDigit 360 وDigit Plexus، وهي القطع الأثرية البحثية الثلاثة التي أصدرتها Meta، على إدراك اللمس وبراعة الروبوت والتفاعل بين الإنسان والروبوت. تقوم Meta أيضًا بإصدار PARTNR وهو معيار جديد لتقييم التخطيط والتفكير في التعاون بين الإنسان والروبوت.
ويأتي هذا الإصدار في الوقت الذي أدى فيه التقدم في النماذج الأساسية إلى تجديد الاهتمام بالروبوتات، وتقوم شركات الذكاء الاصطناعي بتوسيع سباقها تدريجياً من العالم الرقمي إلى العالم المادي.
هناك أمل متجدد في الصناعة أنه بمساعدة النماذج الأساسية مثل نماذج اللغة الكبيرة (LLMs) ونماذج لغة الرؤية (VLMs)، يمكن للروبوتات إنجاز مهام أكثر تعقيدًا تتطلب التفكير والتخطيط.
الإدراك اللمسي
سبارش، التي تم إنشاؤها بالتعاون مع جامعة واشنطن وجامعة كارنيجي ميلون، هي عائلة من نماذج التشفير للاستشعار عن طريق اللمس القائم على الرؤية. ويهدف إلى تزويد الروبوتات بقدرات الإدراك باللمس. يعد إدراك اللمس أمرًا بالغ الأهمية لمهام الروبوتات، مثل تحديد مقدار الضغط الذي يمكن تطبيقه على كائن معين لتجنب إتلافه.
يتمثل النهج الكلاسيكي لدمج أجهزة الاستشعار اللمسية القائمة على الرؤية في مهام الروبوت في استخدام البيانات المصنفة لتدريب النماذج المخصصة التي يمكنها التنبؤ بالحالات المفيدة. لا يتم تعميم هذا النهج عبر أجهزة الاستشعار والمهام المختلفة.
يصف ميتا Sparsh بأنه نموذج للأغراض العامة يمكن تطبيقه على أنواع مختلفة من أجهزة استشعار اللمس القائمة على الرؤية والمهام المختلفة. للتغلب على التحديات التي واجهتها الأجيال السابقة من نماذج إدراك اللمس، قام الباحثون بتدريب نماذج سبارش من خلالها التعلم الخاضع للإشراف الذاتي (SSL)، مما يلغي الحاجة إلى البيانات المصنفة. وقد تم تدريب النموذج على أكثر من 460.000 صورة لمسية، تم دمجها من مجموعات بيانات مختلفة. وفقًا لتجارب الباحثين، حقق Sparsh تحسنًا متوسطًا بنسبة 95.1% مقارنة بالنماذج الشاملة الخاصة بالمهام وأجهزة الاستشعار في ظل ميزانية بيانات محدودة. قام الباحثون بإنشاء إصدارات مختلفة من Sparsh بناءً على بنيات مختلفة، بما في ذلك ميتا I-JEPA ونماذج دينو.
أجهزة استشعار تعمل باللمس
بالإضافة إلى الاستفادة من البيانات الموجودة، تقوم Meta أيضًا بإصدار أجهزة لجمع معلومات لمسية غنية من المادية. الرقم 360 هو مستشعر لمس صناعي على شكل إصبع مع أكثر من 18 خاصية استشعار. يحتوي المستشعر على أكثر من 8 ملايين تاكسيل لالتقاط التشوهات متعددة الاتجاهات والحبيبية على سطح طرف الإصبع. يلتقط Digit 360 طرق استشعار مختلفة لتوفير فهم أكثر ثراءً للبيئة وتفاعلات الكائنات.
يحتوي Digit 360 أيضًا على نماذج الذكاء الاصطناعي الموجودة على الجهاز لتقليل الاعتماد على الخوادم المستندة إلى السحابة. وهذا يمكّنها من معالجة المعلومات محليًا والاستجابة للمس بأقل قدر من الكمون، على غرار القوس المنعكس عند البشر والحيوانات.
وكتب باحثون في ميتا: “إلى جانب البراعة الروبوتية المتقدمة، فإن هذا المستشعر المتقدم لديه تطبيقات محتملة كبيرة من الطب والأطراف الصناعية إلى الواقع الافتراضي والحضور عن بعد”.
تقوم Meta بإصدار علنًا الكود والتصاميم لـ Digit 360 لتحفيز البحث والابتكار القائم على المجتمع في مجال إدراك اللمس. ولكن كما هو الحال في إصدار نماذج مفتوحة المصدر، فإن لديها الكثير لتكسبه من التبني المحتمل لأجهزتها ونماذجها. يعتقد الباحثون أن المعلومات التي تم التقاطها بواسطة Digit 360 يمكن أن تساعد في تطوير بيئات افتراضية أكثر واقعية، والتي يمكن أن تكون كبيرة لمشاريع Metaverse في المستقبل.
تقوم Meta أيضًا بإصدار Digit Plexus، وهي عبارة عن منصة برمجيات الأجهزة تهدف إلى تسهيل تطوير التطبيقات الآلية. يمكن لـ Digit Plexus دمج العديد من أجهزة استشعار اللمس بالأصابع والجلد في يد روبوتية واحدة، وترميز البيانات اللمسية المجمعة من المستشعرات، ونقلها إلى كمبيوتر مضيف عبر كابل واحد. ميتا تطلق سراح الكود والتصميم من Digit Plexus لتمكين الباحثين من البناء على المنصة وتطوير أبحاث براعة الروبوت.
ستقوم Meta بتصنيع Digit 360 بالشراكة مع شركة تصنيع أجهزة الاستشعار اللمسية GelSight Inc. كما ستتشارك أيضًا مع شركة الروبوتات الكورية الجنوبية Wonik Robotics لتطوير يد آلية متكاملة تمامًا مع أجهزة استشعار اللمس على منصة Digit Plexus.
تقييم التعاون بين الإنسان والروبوت
تقوم Meta أيضًا بإصدار مهام التخطيط والاستدلال بالتعاون بين الإنسان والروبوت (شريك)، وهو معيار لتقييم فعالية نماذج الذكاء الاصطناعي عند التعاون مع البشر في المهام المنزلية.
تم بناء PARTNR على رأس بيئة محاكاة Habitat، Meta. يتضمن 100000 مهمة لغة طبيعية في 60 منزلاً ويتضمن أكثر من 5800 كائن فريد. تم تصميم المعيار لتقييم أداء LLMs وVLMs في اتباع التعليمات من البشر.
ينضم معيار Meta الجديد إلى عدد متزايد من المشاريع التي تستكشف استخدام LLMs وVLMs في الروبوتات وإعدادات الذكاء الاصطناعي المجسدة. وفي العام الماضي، أظهرت هذه النماذج وعدًا كبيرًا بمثابة وحدات التخطيط والتفكير للروبوتات في المهام المعقدة. الشركات الناشئة مثل شكل وقامت شركة Covariant بتطوير نماذج أولية تستخدم النماذج الأساسية للتخطيط. وفي الوقت نفسه، تعمل مختبرات الذكاء الاصطناعي على إنشاء نماذج أساسية أفضل للروبوتات. ومن الأمثلة على ذلك جوجل DeepMind مشروع آر تي-إكس، والذي يجمع مجموعات البيانات من الروبوتات المختلفة لتدريب نموذج الرؤية واللغة والعمل (VLA) الذي يعمم على أشكال ومهام الروبوتات المختلفة.