Breaking News

FLUX: مولد الصور الجديد هذا قادر بشكل مذهل على إنشاء أيدي بشرية


صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة مطور FLUX.1:
تكبير / صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة مطور FLUX.1: “ملكة الكون الجميلة ترفع يديها، ووجهها في الخلفية.”

فلوكس.1

في يوم الخميس، أعلنت شركة Black Forest Labs الناشئة في مجال الذكاء الاصطناعي أعلن إطلاق شركتها وإطلاق أول مجموعة من نماذج الذكاء الاصطناعي لتحويل النص إلى صورة، والتي تسمى FLUX.1. تأسست الشركة الألمانية، التي أسسها باحثون طوروا التكنولوجيا وراء انتشار مستقر واخترع تقنية الانتشار الكامنيهدف إلى إنشاء الذكاء الاصطناعي التوليدي المتقدم للصور ومقاطع الفيديو.

يأتي إطلاق FLUX.1 بعد حوالي سبعة أسابيع من الإصدار المضطرب لشركة Stability AI انتشار مستقر 3 وسط في منتصف يونيو/حزيران، واجهت عروض Stability AI انتقادات واسعة النطاق بين هواة تركيب الصور بسبب أدائها الضعيف في توليد تشريح بشري، حيث شارك المستخدمون أمثلة للأطراف والأجسام المشوهة عبر وسائل التواصل الاجتماعي. جاء هذا الإطلاق الإشكالي بعد رحيل ثلاثة مهندسين رئيسيين من Stability AI – روبن رومباش وأندرياس بلاتمان ودومينيك لورينز – الذين ذهبوا إلى تأسيس Black Forest Labs جنبًا إلى جنب مع باتريك إيسر، المطور المشارك للانتشار الكامن و آحرون.

أطلقت Black Forest Labs ثلاثة نماذج لتحويل النص إلى صورة من FLUX.1: إصدار “احترافي” تجاري عالي الجودة، وإصدار “تطويري” متوسط ​​المدى بأوزان مفتوحة للاستخدام غير التجاري، وإصدار “schnell” أسرع بأوزان مفتوحة (“schnell” تعني سريع أو سريع بالألمانية). تزعم Black Forest Labs أن نماذجها تتفوق على الخيارات الحالية مثل Midjourney وDALL-E في مجالات مثل جودة الصورة والالتزام بمطالبات النص.

في تجربتنا، فإن مخرجات نموذجي FLUX.1 الأعلى جودة قابلة للمقارنة عمومًا مع نموذج OpenAI دال-اي 3 بدقة متناهية، مع واقعية تصويرية تبدو قريبة من منتصف الرحلة 6. إنها تمثل تحسنًا كبيرًا على انتشار مستقر XL، آخر إصدار رئيسي للفريق في مرحلة الاستقرار (إذا لم تحسب SDXL توربو).

تستخدم نماذج FLUX.1 ما تسميه الشركة “هندسة هجينة” تجمع بين تقنيات المحول والانتشار، مع زيادة تصل إلى 12 مليار معلمة. وقالت شركة Black Forest Labs إنها تعمل على تحسين نماذج الانتشار السابقة من خلال دمج مطابقة التدفق والتحسينات الأخرى.

يبدو أن FLUX.1 قادر على توليد الأيدي البشرية، وهو ما كان نقطة ضعف في نماذج تركيب الصور السابقة مثل Secure Diffusion 1.5 بسبب نقص صور التدريب التي تركز على اليدين. منذ تلك الأيام الأولى، أتقنت مولدات الصور الأخرى التي تعمل بالذكاء الاصطناعي مثل Midjourney اليدين أيضًا، ولكن من الجدير بالذكر أن نرى نموذجًا للأوزان المفتوحة يعرض اليدين بدقة نسبية في أوضاع مختلفة.

لقد قمنا بتنزيل ملف الأوزان إلى نموذج التطوير FLUX.1 من جيثبولكن بحجم 23 جيجابايت، لن يتناسب مع ذاكرة VRAM سعة 12 جيجابايت الخاصة ببطاقة RTX 3060 الخاصة بنا، لذا ستحتاج إلى توضيح التشغيل محليًا (تقليل حجمه)، والذي ورد (من خلال الدردشة على Reddit) أن بعض الأشخاص قد حققوا نجاحًا بالفعل معه.

بدلاً من ذلك، قمنا بتجربة نماذج FLUX.1 على منصات استضافة الذكاء الاصطناعي السحابية فال و استنساخ، والتي تتطلب أموالاً لاستخدامها، على الرغم من أن Fal تقدم بعض الاعتمادات المجانية للبدء.

الغابة السوداء تتطلع إلى الأمام

قد تكون Black Forest Labs شركة جديدة، لكنها تجتذب بالفعل التمويل من المستثمرين. فقد أغلقت مؤخرًا جولة تمويلية بقيمة 31 مليون دولار بقيادة Andreessen Horowitz، مع استثمارات إضافية من Normal Catalyst وMätchVC. كما استعانت الشركة بمستشارين رفيعي المستوى، بما في ذلك المدير التنفيذي للترفيه ورئيس شركة ديزني السابق مايكل أوفيتز وباحث في مجال الذكاء الاصطناعي ماتياس بيثجي.

وفي إعلانها، ذكرت الشركة: “نعتقد أن الذكاء الاصطناعي التوليدي سيكون حجر الأساس لجميع التقنيات المستقبلية. ومن خلال إتاحة نماذجنا لجمهور واسع، نريد أن نجلب فوائدها للجميع، ونعلم الجمهور ونعزز الثقة في سلامة هذه النماذج”.

عند الحديث عن “الثقة والأمان”، لم تذكر الشركة من أين حصلت على بيانات التدريب التي علمت نماذج FLUX.1 كيفية إنشاء الصور. وبالحكم على النتائج التي تمكنا من إنتاجها باستخدام النموذج الذي تضمن تصوير شخصيات محمية بحقوق الطبع والنشر، فمن المرجح أن Black Forest Labs استخدمت عملية استخراج صور ضخمة غير مصرح بها من الإنترنت، ربما تم جمعها بواسطة لايون، وهي منظمة تم جمع مجموعات البيانات إن هذا التدريب على الانتشار المستقر هو مجرد تكهنات في هذه المرحلة. وفي حين أن الإنجاز التكنولوجي الأساسي لـ FLUX.1 جدير بالملاحظة، فمن المرجح أن الفريق يلعب بسرعة ودون ضوابط بأخلاقيات “الاستخدام العادل” لكشط الصور تمامًا كما فعل Stability AI. وقد تجتذب هذه الممارسة في النهاية دعاوى قضائية مثل تلك المرفوعة ضد Stability AI.

على الرغم من أن توليد النص إلى صورة هو التركيز الحالي لشركة Black Forest، إلا أن الشركة تخطط للتوسع في توليد الفيديو بعد ذلك، قائلة إن FLUX.1 سيعمل كأساس لنموذج جديد لتحويل النص إلى فيديو قيد التطوير، والذي سيتنافس مع OpenAI. سورامدرج الجيل الثالث ألفا، وكوايشو كلينج في مسابقة لتشويه واقع الإعلام عند الطلب. ويزعم إعلان الغابة السوداء: “ستفتح نماذج الفيديو الخاصة بنا المجال أمام الإبداع الدقيق والتحرير بدقة عالية وسرعة غير مسبوقة”.