أعلنت شركة OpenAI يوم الخميس سورا، وهو نموذج AI لتحويل النص إلى فيديو يمكنه إنشاء فيديو عالي الدقة مدته 60 ثانية من الأوصاف المكتوبة. على الرغم من أنها مجرد معاينة بحثية لم نختبرها، إلا أنه يقال إنها تنشئ فيديو اصطناعيًا (ولكن ليس صوتًا بعد) بدقة واتساق أكبر من أي نموذج تحويل نص إلى فيديو متاح في الوقت الحالي. إنه أيضًا يخيف الناس.
“كان من الجميل أن نعرفكم جميعًا. من فضلك أخبر أحفادك عن مقاطع الفيديو الخاصة بي والمدة التي قطعناها لتسجيلها فعليًا.” كتب مراسلة التكنولوجيا في وول ستريت جورنال جوانا ستيرن على X.
“قد تكون هذه هي اللحظة “المقدسة” للذكاء الاصطناعي” كتب توم وارن من الحافة.
“كل مقطع من مقاطع الفيديو هذه تم إنشاؤه بواسطة الذكاء الاصطناعي، وإذا لم يقلقك هذا على الأقل قليلاً، فلن يقلقك أي شيء.” غرد الصحفي التقني على YouTube ماركيز براونلي.
كمرجع مستقبلي – نظرًا لأن هذا النوع من الذعر سيبدو سخيفًا يومًا ما – هناك جيل من الأشخاص الذين نشأوا وهم يعتقدون أن الفيديو الواقعي يجب أن يتم إنتاجه بواسطة الكاميرات. عندما تم تزييف الفيديو (لأفلام هوليوود على سبيل المثال)، استغرق الأمر الكثير من الوقت والمال والجهد للقيام بذلك، ولم تكن النتائج مثالية. أعطى ذلك للناس مستوى أساسيًا من الراحة بأن ما رأوه عن بعد من المرجح أن يكون صحيحًا، أو على الأقل يمثل نوعًا ما من الحقيقة الأساسية. حتى عندما يكون الطفل قفز فوق الحمم البركانية، كان هناك على الأقل طفل وغرفة.
المطالبة التي أدت إلى إنشاء الفيديو أعلاه: “مقطع دعائي لفيلم يعرض مغامرات رجل الفضاء البالغ من العمر 30 عامًا والذي يرتدي خوذة دراجة نارية من الصوف الأحمر، وسماء زرقاء، وصحراء مالحة، بأسلوب سينمائي، تم تصويره على فيلم 35 ملم، بألوان زاهية.“
التكنولوجيا مثل Sora تسحب البساط من تحت هذا النوع من الإطار المرجعي للوسائط. قريبًا جدًا، قد يكون كل مقطع فيديو واقعي تشاهده عبر الإنترنت كاذبًا بنسبة 100 بالمائة بكل الطرق. علاوة على ذلك، فإن كل مقطع فيديو تاريخي تراه قد يكون مزيفًا أيضًا. إن كيفية مواجهتنا كمجتمع لذلك والتغلب عليه مع الحفاظ على الثقة في الاتصالات عن بعد هو أمر يتجاوز نطاق هذه المقالة بكثير، لكنني حاولت يدي في تقديم بعض الحلول في عام 2020، عندما كانت كل التكنولوجيا التي نراها الآن تبدو وكأنها خيال بعيد المنال بالنسبة لمعظم الناس.
في تلك المقالة، أطلقت على اللحظة التي يصبح فيها من الصعب التمييز بين الحقيقة والخيال في وسائل الإعلام اسم “التفرد الثقافي”. يبدو أن OpenAI تسير على الطريق الصحيح لتمرير هذا التوقع في وقت أقرب قليلاً مما توقعنا.
اِسْتَدْعَى: تأملات في نافذة قطار يسافر عبر ضواحي طوكيو.
لقد وجدت OpenAI أنه، مثل نماذج الذكاء الاصطناعي الأخرى التي تستخدم بنية المحولات، فإن Sora المقاييس مع الحساب المتاح. ونظرًا لوجود أجهزة كمبيوتر أكثر قوة خلف الكواليس، يمكن أن تتحسن دقة فيديو الذكاء الاصطناعي بشكل كبير بمرور الوقت. بمعنى آخر، هذا هو “أسوأ” مقطع فيديو تم إنتاجه بواسطة الذكاء الاصطناعي على الإطلاق. لا يوجد صوت متزامن حتى الآن، ولكن قد يتم حل ذلك في النماذج المستقبلية.
كيف (نعتقد) أنهم نجحوا في ذلك
لقد تطور تركيب الفيديو باستخدام الذكاء الاصطناعي بسرعة فائقة خلال العامين الماضيين. قمنا أولاً بتغطية نماذج تحويل النص إلى فيديو في سبتمبر 2022 باستخدام Meta's Make-A-Video. وبعد شهر، ظهرت شركة جوجل فيديو إيماجين. وقبل 11 شهرًا فقط، ظهرت نسخة تم إنشاؤها بواسطة الذكاء الاصطناعي ويل سميث يأكل السباغيتي ذهب الفيروسية. في شهر مايو من العام الماضي، ساعد ما كان يعتبر سابقًا المتسابق الأول في مجال تحويل النص إلى فيديو، Runway Gen-2، في صياغة تجارة البيرة المزيفة مليئة بالوحوش الملتوية، التي تم إنشاؤها بزيادات ثانيتين. في نماذج توليد الفيديو السابقة، يدخل الناس إلى الواقع ويخرجون منه بسهولة، وتتدفق الأطراف معًا مثل المعكرونة، ولا يبدو أن الفيزياء مهمة.
يبدو أن سورا (التي تعني “السماء” باللغة اليابانية) شيء مختلف تمامًا. إنها عالية الدقة (1920 × 1080)، ويمكنها إنشاء فيديو بتناسق زمني (الحفاظ على نفس الموضوع مع مرور الوقت) يستمر لمدة تصل إلى 60 ثانية، ويبدو أنه يتبع المطالبات النصية بقدر كبير من الدقة. إذًا، كيف تمكنت OpenAI من تحقيق ذلك؟
لا تشارك OpenAI عادةً التفاصيل الفنية الداخلية مع الصحافة، لذلك يُترك لنا التكهن بناءً على نظريات الخبراء والمعلومات المقدمة للجمهور.
يقول OpenAI أن Sora هو نموذج انتشار، يشبه إلى حد كبير دال-E 3 و انتشار مستقر. وتشرح الشركة أنه يقوم بإنشاء مقطع فيديو عن طريق البدء بالضوضاء ثم “تحويله تدريجيًا عن طريق إزالة الضوضاء عبر عدة خطوات”. فهو “يتعرف” على الأشياء والمفاهيم المدرجة في الموجه المكتوب ويخرجها من الضوضاء، إذا جاز التعبير، حتى تظهر سلسلة متماسكة من إطارات الفيديو.
Sora قادر على إنشاء مقاطع فيديو مرة واحدة من خلال مطالبة نصية، أو توسيع مقاطع الفيديو الموجودة، أو إنشاء مقاطع فيديو من صور ثابتة. إنه يحقق الاتساق الزمني من خلال إعطاء النموذج “استبصارًا” للعديد من الإطارات في وقت واحد، كما تسميه OpenAI، ويحل مشكلة ضمان بقاء الموضوع الذي تم إنشاؤه كما هو حتى لو خرج عن نطاق الرؤية مؤقتًا.
تمثل OpenAI الفيديو كمجموعات من مجموعات أصغر من البيانات تسمى “التصحيحات”، والتي تقول الشركة إنها تشبه الرموز المميزة (أجزاء من الكلمة) في GPT-4. كتبت الشركة: “من خلال توحيد كيفية تمثيل البيانات، يمكننا تدريب محولات الانتشار على نطاق أوسع من البيانات المرئية مما كان ممكنًا من قبل، ويمتد لفترات مختلفة، ودقة الوضوح، ونسب العرض إلى الارتفاع”.
إحدى الأدوات المهمة في مجموعة حيل OpenAI هي أن استخدامها لنماذج الذكاء الاصطناعي أمر جيد يضاعف. تساعد النماذج السابقة في إنشاء نماذج أكثر تعقيدًا. سورا يتبع المطالبات بشكل جيد لأنه، مثل دال-E 3، فهو يستخدم التسميات التوضيحية الاصطناعية التي تصف المشاهد في بيانات التدريب التي تم إنشاؤها بواسطة نموذج ذكاء اصطناعي آخر مثل جي بي تي-4V. والشركة لا تتوقف هنا. كتب OpenAI: “يعمل Sora كأساس للنماذج التي يمكنها فهم ومحاكاة العالم الحقيقي، وهي القدرة التي نعتقد أنها ستكون علامة فارقة مهمة لتحقيق الذكاء الاصطناعي العام.”
أحد الأسئلة التي تدور في أذهان الكثير من الناس هو ما هي البيانات التي استخدمتها OpenAI لتدريب Sora. لم تكشف OpenAI عن مجموعة البيانات الخاصة بها، ولكن بناءً على ما يراه الناس في النتائج، من الممكن أن تستخدم OpenAI بيانات الفيديو الاصطناعية التي تم إنشاؤها في محرك ألعاب الفيديو بالإضافة إلى مصادر الفيديو الحقيقي (على سبيل المثال، المستخرج من YouTube أو المرخص من فيديو المخزون) المكتبات). كتب الدكتور جيم فان من Nvidia، وهو متخصص في تدريب الذكاء الاصطناعي باستخدام البيانات الاصطناعية، على X، “لن أتفاجأ إذا تم تدريب Sora على الكثير من البيانات الاصطناعية باستخدام Unreal Engine 5. يجب أن يكون الأمر كذلك!” وحتى يتم تأكيد ذلك من قبل OpenAI، فهذه مجرد تكهنات.