هل سمعت عن برنامج Sora من OpenAI التي تم الإعلان عنه مؤخراً ؟
برنامج يعمل بالذكاء اصطناعي لتحويل النص إلى فيديو .
ولقد تم إعداده لإحداث ثورة في الذكاء الاصطناعي متعدد الوسائط في عام 2024.
استكشف قدراته وابتكاراته وتأثيره المحتمل في هذا المقال.
تصميم فيديو ببرنامج Sora : شركة OpenAI تعلن عن ثورة تصميم جديدة!
مع ظهور ثورة الذكاء الاصطناعي في التسويق الرقمي، بالإضافة إلى برامج التصاميم التي تعمل ببرامج الـ AI, ظهر لنا تصميم الفيديو ببرنامج Sora, أحدث برامج OpenAI.
شركة OpenAI تعلن عن برنامج Sora لتصميم الفيديو
في عام 2023 كان الاهتمام في المقام الأول على إنشاء النصوص، أما عام 2024 سيكون عام الذكاء الاصطناعي متعدد الوسائط.
أي أن أنواع البيانات الغنية مثل الصور والصوت ستكون محور التركيز الرئيسي للذكاء الاصطناعي التوليدي هذا العام.
ولقد كان هناك سؤال حول الفيديو – إنه أصعب بكثير في العمل، لذلك ربما يتعين علينا الانتظار حتى عام 2025 حتى نتمكن من إنشاء جيل فيديو رائع من الذكاء الاصطناعي.
ومع ذلك، فنحن في شهر فبراير فقط، وقد أعلنت OpenAI للتو عن الذكاء الاصطناعي الجديد لتحويل النص إلى فيديو من Sora .
حيث أصبحت منصة الوسائط الاجتماعية X مجنونة بعد أن أصدرت OpenAI نموذج تصميم فيديو ببرنامج Sora، وهو نموذج تحويل النص إلى فيديو الذي يمكنه إنشاء مقاطع فيديو عالية الجودة تصل مدتها إلى 60 ثانية من المطالبات النصية.
وبغض النظر عما إذا كانت مطالبتك منطقية أم لا، فإن Sora يعمل في الغالب مع حركات الكاميرا المعقدة والشخصيات المتعددة والفيزياء المعقدة للمشهد.
ما هو تصميم فيديو ببرنامج Sora ؟
Sora هو نموذج الذكاء الاصطناعي المولد لتصميم فيديو وتحويل النص إلى فيديو من OpenAI.
وهذا يعني أنك تكتب مطالبة نصية، ويقوم بتصميم مقطع فيديو يطابق وصف المطالبة ببرنامج Sora.
ما التكنولوجيا وراء برنامج Sora ؟
تم تدريب Sora على بيانات الفيديو والصورة ذات الأطوال والدقة ونسب العرض إلى الارتفاع المختلفة.
حيث إنه نموذج نشر مشروط للنص يستخدم بنية المحولات ويعمل على تصحيحات الزمكان للفيديو والرموز الكامنة للصور.
كما يمكن لـ Sora إنشاء محتوى بتناسق ثلاثي الأبعاد أثناء التعامل مع حركة الكاميرا، والحفاظ على بقاء الكائن في المشهد لفترات طويلة، ومحاكاة التفاعل بين الكيانات في المشهد التي تطيع تقريباً قوانين الفيزياء، وحتى إنشاء عوالم رقمية مثل Minecraft.
تقليدياً، كانت الألعاب ومحركات الألعاب أفضل الأمثلة على إنشاء المشهد سريعاً والذي يمكن أن يقدم محتوى ذا معنى.
ومحرك اللعبة هو في المقام الأول محاكي فيزيائي يقوم بإنشاء مشهد ثلاثي الأبعاد بناءً على فيزياء المخرجات المطلوبة.
ثم يقوم عارض الفيديو بتحويل المشهد ثلاثي الأبعاد إلى فيديو ثنائي الأبعاد مع تطبيق زوايا الكاميرا ومنظور الضوء لجعله يبدو واقعياً.
ولهذا السبب تحتاج الألعاب إلى وحدات معالجة الرسومات لعرض الألعاب، ويعد تتبع الأشعة أحد أهم الخوارزميات وUnreal Engine هي الشركة الرائدة في هذه الصناعة.
في حين أن الشكوك كثيرة، يعتقد الكثير من الناس أن Sora تم تدريبه باستخدام واجهة خلفية لمحاكاة الفيزياء، ويعتقد عدد كبير أن الأمر ليس كذلك. (حتى أن بعض المستخدمين أشاروا إلى التشابه بين محتوى Shutterstock ونتائج Sora)
كيف يعمل برنامج Sora ؟
مثل نماذج الذكاء الاصطناعي المولدة للنص إلى الصورة مثل DALL · E 3 وStableDiffusion وMidjourney، فإن Sora هو نموذج نشر.
وهذا يعني أنه يبدأ بكل إطار من الفيديو يتكون من ضوضاء ثابتة، ويستخدم التعلم الآلي لتحويل الصور تدريجياً إلى شيء يشبه الوصف الموجود في الموجه.
حل الاتساق الزمني
أحد مجالات الابتكار في تصميم فيديو ببرنامج Sora هو أنه يأخذ في الاعتبار عدة إطارات فيديو في وقت واحد، مما يحل مشكلة الحفاظ على تناسق الكائنات عند تحركها داخل وخارج نطاق العرض.
وفي الفيديو التالي لاحظ أن يد الكنغر تتحرك خارج اللقطة عدة مرات، وعندما تعود تبدو اليد كما كانت من قبل.
الجمع بين نماذج الانتشار والمحولات
يجمع Sora بين استخدام نموذج الانتشار وبنية المحولات، كما تستخدمها GPT.
في حين أن OpenAI لم تقدم تفاصيل حول كيفية عمل نموذج الانتشار والمحول معاً، فقد جرب آخرون ذلك، لذلك من الممكن التكهن بتفاعلهم.
وأشار جاك تشياو إلى أن:
“نماذج الانتشار رائعة في توليد نسيج منخفض المستوى ولكنها سيئة في التركيب الشامل، في حين أن المحولات لديها مشكلة معاكسة.”
لذلك قد يتم استخدام نموذج محول يشبه GPT لتحديد التخطيط عالي المستوى لإطارات الفيديو، ويتم استخدام نموذج الانتشار لإنشاء التفاصيل.
زيادة دقة الفيديو مع Recaptioning
لالتقاط جوهر مطالبة المستخدم بأمانة، يستخدم Sora تقنية إعادة التسجيل المتوفرة أيضاً في DALL · E 3.
وهذا يعني أنه قبل إنشاء أي فيديو، يتم استخدام GPT لإعادة كتابة مطالبة المستخدم لتضمين المزيد من التفاصيل. في الأساس، إنه شكل من أشكال الهندسة السريعة التلقائية.
ما المدة التي يمكن أن تستغرقها مقاطع فيديو Sora؟
يمكن أن يصل طول مقاطع فيديو Sora إلى 60 ثانية.
ما هي حدود برنامج Sora؟
تلاحظ OpenAI وجود العديد من القيود في الإصدار الحالي من Sora.
ليس لدى تصميم فيديو ببرنامج Sora فهم ضمني للفيزياء، وبالتالي قد لا يتم الالتزام دائماً بالقواعد الفيزيائية “للعالم الحقيقي”.
وأحد الأمثلة على ذلك هو أن النموذج لا يفهم السبب والنتيجة.
ما هي حالات استخدام تصميم فيديو ببرنامج Sora ؟
يمكن استخدام تصميم فيديو ببرنامج Sora من البداية أو توسيع مقاطع الفيديو الموجودة لجعلها أطول.
كما يمكنه أيضاً ملء الإطارات المفقودة من مقاطع الفيديو.
وبنفس الطريقة التي جعلت بها أدوات الذكاء الاصطناعي المولدة لتحويل النص إلى صورة من السهل بشكل كبير إنشاء الصور دون خبرة فنية في تحرير الصور، كذلك يقوم Sora بتسهيل إنشاء مقاطع الفيديو دون خبرة في تحرير الصور. فيما يلي بعض حالات الاستخدام الرئيسية.
وسائل التواصل الاجتماعي
يمكن استخدام تصميم فيديو ببرنامج Sora لإنشاء إعلانات فيديو قصيرة لمنصات التواصل الاجتماعي مثل TikTok وInstagram Reels وYouTube Shorts.
المحتوى الذي يصعب أو يستحيل تصويره مناسب بشكل خاص.
الإعلان والتسويق
يعد إنشاء الإعلانات ومقاطع الفيديو الترويجية والعروض التوضيحية للمنتجات أمراً مكلفاً بشكل تقليدي.
لذا تعمل أدوات الذكاء الاصطناعي لتصميم فيديو ببرنامج Sora لجعل هذه العملية أرخص بكثير.
كمثال يمكن لمجلس السياحة الذي يرغب في الترويج لمنطقة بيج سور في كاليفورنيا استئجار طائرة بدون طيار لالتقاط لقطات جوية للموقع، أو يمكنه استخدام الذكاء الاصطناعي، مما يوفر الوقت والمال.
النماذج الأولية وتصور المفهوم
حتى لو لم يتم استخدام فيديو الذكاء الاصطناعي في المنتج النهائي، فقد يكون مفيداً لعرض الأفكار بسرعة.
حيث يمكن لصانعي الأفلام استخدام الذكاء الاصطناعي لإنشاء نماذج بالحجم الطبيعي للمشاهد قبل تصويرها، ويمكن للمصممين إنشاء مقاطع فيديو للمنتجات قبل بنائها.
كمثال يمكن لشركة ألعاب إنشاء نموذج بالحجم الطبيعي للذكاء الاصطناعي للعبة سفينة قراصنة جديدة قبل الالتزام بإنشائها على نطاق واسع.
ما هي مخاطر سورا؟
المنتج جديد، لذا لم يتم وصف المخاطر بشكل كامل بعد، ولكن من المحتمل أن تكون مشابهة لتلك الخاصة بنماذج تحويل النص إلى صورة.
توليد المحتوى الضار
بدون وجود حواجز حماية، يتمتع تصميم فيديو ببرنامج Sora بالقدرة على إنشاء محتوى بغيض أو غير مناسب، بما في ذلك مقاطع الفيديو التي تحتوي على عنف ودماء ومواد جنسية صريحة وتصوير مهين لمجموعات من الأشخاص وصور أخرى تحض على الكراهية والترويج للأنشطة غير القانونية أو تمجيدها.
ويختلف ما يشكل محتوى غير لائق كثيراً اعتماداً على المستخدم (فكر في طفل يستخدم Sora مقابل شخص بالغ) وسياق إنشاء الفيديو (فيديو تحذير حول مخاطر الألعاب النارية يمكن أن يصبح دموياً بسهولة بطريقة تعليمية).
معلومات مضللة ومضللة
استناداً إلى مقاطع الفيديو النموذجية التي شاركتها OpenAI، تتمثل إحدى نقاط قوة تصميم فيديو ببرنامج Sora في قدرتها على إنشاء مشاهد خيالية لا يمكن أن تكون موجودة في الحياة الواقعية.
حيث تتيح هذه القوة أيضاً إمكانية إنشاء مقاطع فيديو “عميقة التزييف” حيث يتم تغيير الأشخاص أو المواقف الحقيقية إلى شيء غير حقيقي.
وعندما يتم تقديم هذا المحتوى على أنه حقيقة، إما عن طريق الخطأ (معلومات مضللة) أو عمداً (معلومات مضللة)، فقد يتسبب ذلك في حدوث مشكلات.
وكما كتب إسكي مونتويا مارتينيز فان إيجرشوت، كبير مسؤولي الحوكمة والأخلاقيات في مجال الذكاء الاصطناعي في DigiDiplomacy :
“يعمل الذكاء الاصطناعي على إعادة تشكيل استراتيجيات الحملات الانتخابية، وإشراك الناخبين، ونسيج النزاهة الانتخابية ذاته”.
وإن مقاطع فيديو الذكاء الاصطناعي المقنعة ولكن المزيفة للسياسيين أو خصوم السياسيين لديها القدرة على
“نشر روايات كاذبة بشكل استراتيجي واستهداف المصادر المشروعة بالمضايقات، بهدف تقويض الثقة في المؤسسات العامة وتعزيز العداء تجاه مختلف الدول ومجموعات الناس”.
وفي عام شهد العديد من الانتخابات المهمة، من تايوان إلى الهند إلى الولايات المتحدة، كان لهذا عواقب واسعة النطاق.
التحيزات والقوالب النمطية
تعتمد مخرجات نماذج الذكاء الاصطناعي التوليدية بشكل كبير على البيانات التي تم التدريب عليها.
وهذا يعني أن التحيزات الثقافية أو الصور النمطية في بيانات التدريب يمكن أن تؤدي إلى نفس المشكلات في مقاطع الفيديو الناتجة.
وكما ناقشت جوي بولامويني في حلقة “الكفاح من أجل العدالة الخوارزمية” من برنامج DataFramed،
فإن التحيز في الصور يمكن أن يكون له عواقب وخيمة في التوظيف والشرطة.
كيف يمكنني الوصول إلى Sora ؟
تصميم فيديو ببرنامج Sora متاح حالياً فقط لباحثي “الفريق الأحمر”.
أي الخبراء الذين يتم تكليفهم بمهمة محاولة تحديد المشكلات في النموذج.
على سبيل المثال، سيحاولون إنشاء محتوى يتضمن بعض المخاطر المحددة في القسم السابق حتى تتمكن OpenAI من تخفيف المشكلات قبل إطلاق Sora للعامة.
لم تحدد OpenAI بعد تاريخ إصدار عام لـ Sora، على الرغم من أنه من المحتمل أن يكون في وقت ما في عام 2024.
ما هي البدائل Sora ؟
البديل الأكثر شهرة لـ OpenAI Sora هو Runway Gen-2.
مثل Sora، هذا هو الذكاء الاصطناعي المولد لتحويل النص إلى فيديو، وهو متاح حالياً على الويب والهاتف المحمول.
في الختام
يعد نموذج تصميم فيديو ببرنامج Sora من OpenAI بقفزة إلى الأمام في جودة الفيديو التوليدي.
ومن المنتظر بشدة الإصدار العام المرتقب وتطبيقاته المحتملة في مختلف القطاعات.
فإذا كنت حريصاً على البدء في عالم الذكاء الاصطناعي التوليدي، فإن مسار مهارات أساسيات الذكاء الاصطناعي لدينا سيساعدك على مواكبة التعلم الآلي، والتعلم العميق، والبرمجة اللغوية العصبية، والنماذج التوليدية، والمزيد.
المصادر :
https://medium.com/long-sweet-valuable/openai-sora-create-videos-out-of-imagination-d36d57b89b72
[…] مولدات الذكاء الاصطناعي لتحويل النص إلى فيديو بمثابة حلول برمجية متقدمة تستخدم خوارزميات الذكاء […]
[…] الحديثة، سواء في التصميم والموشن والفيديو حتى أنباء Sora […]
[…] حسناً، لا داعي للقلق بعد الآن حيث ظهرت مؤخراً بعض أدوات الذكاء الاصطناعي الرائعة لإنشاء الفيديو. […]