كيف يمكن لـ Google VideoPoet أن يحول نصك إلى فيديو مذهل؟

By Reem Nizam On فبراير 6, 2024 0

في عالمنا التكنولوجي المتطور، يظهر كل يوم منتج جديد يستخدم الذكاء الاصطناعي لتحسين حياتنا. ومن بين هذه المنتجات، يبرز Google VideoPoet، أول مولد فيديو بالذكاء الاصطناعي في العالم. هذا المنتج الرائع يمكنه إنشاء فيديوهات احترافية من نصوص بسيطة، وتعديلها بميزات متعددة. فكيف يعمل هذا المنتج؟ وما هي ميزاته؟

محتوى المقال إظهار

ما هو VideoPoet؟

وفقاً لدراسة أجرتها جوجل، يمكن لـ Google VideoPoet أن يوفر للمستخدمين حتى 80% من الوقت والجهد الذي يحتاجونه لإنشاء فيديو بشكل يدوي. هو نموذج تجريبي من شركة جوجل يعمل بالذكاء الاصطناعي. وظيفته الأساسية إنشاء الصور والفيديوهات اعتماداً على مهارات التعلم العميق الخاصة بالذكاء الاصطناعي. وقد اشتهر بإنشاء الفيديوهات أكثر من الوسائط الأخرى، كونه أول نموذج يستطيع إنشاء فيديو باستخدام الذكاء الاصطناعي. حيث يمكنك ببساطة تقديم شرح كتابي لأي فكرة فيديو تجول في بالك وسيقوم هذا النموذج بإنشاء فيديو وفقاً للوصف الذي قدمه خلال دقائق، أو حتى ثواني!.

بالإضافة إلى ذلك يمكن لهذا النموذج أن يقوم بتعديل الفيديو بعد إنشاءه من خلال الكثير من الميزات والأدوات. وبذلك يصبح قريباً نماذج شركة Open AI ك DELL-3 على سبيل المثال.

توليد فيديو من النص google VideoPoet — credits: google

قد يهمك أيضاً: افضل 10 محرر صور بالذكاء الاصطناعي اونلاين

الوظائف الأساسية التي يمكن أن يقوم بها.

بالرغم من أنه اشتهر بإنشاء الفيديوهات بدءاً من نصوص مكتوبة تصف الفيديو. إلا أن هذا النموذج يمكنه القيام بالعديد من الوظائف وهي كما ذكرت جوجل في ورقتها البحثية حول هذا النموذج: تحويل النص إلى فيديو، تحويل الصورة إلى فيديو، تعديل الفيديو، تحويل الفيديو إلى صوت. بالإضافة إلى معالجة الصور والفيديو.

فيديو يوضح كيف يمكنك انشاء فيديو كامل بواسطة نص يصف ما تريد عبر Google VideoPoet

Google VideoPoet هو نموذج لغة كبير تم تطويره بواسطة Google Research، كما يستخدم تقنيات التعلم العميق والمحولات لإنشاء الفيديوهات ولإخراج مقاطع فيديو عالية الحركة ومتغيرة الطول بناءً على نص موجه.

يمكن لـ Google VideoPoet إنشاء مقاطع فيديو لأي موضوع أو نوع، مثل التعليم، التسويق، الترفيه، الفن، الرياضة، وغيرها. يمكن للمستخدمين استخدام هذه الفيديوهات لتقديم عروض تقديمية، أو ترويج منتجاتهم، أو مشاركة هواياتهم، أو تعلم مهارات جديدة، وغيرها من الأهداف.

كيف يستطيع هذا النموذج إنشاء الفيديوهات؟

يمكن لهذا النموذج أن يقوم بإنشاء الفيديوهات من خلال تحويل النصوص إلى فيديو Text-to-Video والتي تعمل عبر إدخال المستخدم لنص كتابي يصف ما يريد أن يراه في الفيديو. وخلال ثواني سيقوم VideoPoet بإنشاء المقطع المرغوب. ليس ذلك فحسب بل لدى هذا النموذج القدرة على تعديل الفيديو بعد إنشائه كإضافة الفلاتر، اقتصاص جزء من الشاشة ووضع صورة مكان الجزء المقصوص. كما يمكنه إنشاء مقطع فيديو عمودي أو أفقي. وتعدنا جوجل بمميزات عديدة وتركز على الدقة والاحترافية للفيديوهات التي سيتم صنعها باستخدام هذا النموذج.

عملية توليد الفيديو باستخدام الذكاء الاصطناعي

ما الفرق بين Chat GPT وGoogle Bard وVideoPoetمن حيث آلية العمل؟

قد تعتقد بأن هذا النموذج يعمل كشات جي بي تي (Chat GPT) أو جوجل بارد (Google Bard)، إلا أن الأمر أكثر تعقيداً بكثير. على الرغم من أن التقنيات الثلاثة تستخدم نموذج التنبؤ باللغة وتعتمد على بنية المحولات التي تمكنها من نمذجة العلاقات بين الكلمات في الجملة لجعلها أكثر فاعلية. إلا أن VideoPoet يستطيع (بالإضافة إلى ما سبق) التنبؤ بمقاطع الفيديو والصوت أيضاً، وهذا ما يميزه.

يتمثل الفرق الأساسي بين النماذج الثلاثة (Chat GPT ،Google Bard ، VideoPoet) في وظيفة كل منها. يمثل Chat GPT موسوعة معلومات ضخمة يمكنها الرد على أي استفسار لديك باستخدام الصوت أو الكتابة. إلا أنه لا يملك القدرة على تقديم أي نوع من الوسائط. فعلى سبيل المثال، لو طلبت من Chat GPT أن يقدم لك صورة عن الفضاء لن يستطيع، وعوضاً عن ذلك سيرشدك حول كيفية البحث عن صورة عن الفضاء والمواقع التي يمكن أن تتيح لك هذه الصورة. أما بالنسبة ل Google Bard فهو يعمل بنفس آلية شات جي بي تي مع فروق بسيطة.

حيث يمكن لجوجل بارد أن يجلب معلوماته من الإنترنت مباشرة، بينما قد تتوقف خبرة شات جي بي تي عند كل إصدار. كما يمكن ل شات جي بي تي أن يقبل إدخال الصور ويقوم بإنشاء الصور في نسخة Chat GPT Plus أو أحدث. بينما لا يمكن ل جوجل بارد أن يفعل ذلك.

أما VideoPoet فهو يتجاوز فكرة إنشاء النصوص أو الصور، ليقوم بإنشاء الفيديوهات وبكل سلاسة. ومع القدرة على تعديل الفيديو بعد إنشاءه.

ما الفرق بين Chat GPT وGoogle Bard و VideoPoet من حيث كمية البيانات التي تم تدريب النموذج عليها؟

بالنسبة للإصدار الرابع من شات جي بي تي (Chat GPT-4)، تم تدريب النموذج على 7000 كتاب، 8 ملايين موقع إلكتروني، ومليار رمز.

أما بالنسبة ل Google Bard فيعتمد على نموذج لغة يسمى لمدا (LaMDA) والذي تم تدريبه على مجموعة من البيانات تسمى Infiniset والتي تأتي أغلبها من جوجل نفسه، متضمنة ويكيبيديا والوثائق، والمستندات التي تم نشرها على جوجل.

بينما يخضع VideoPoet لعملية تدريب كثيفة تتضمن ترجمة الوسائط المختلفة من صور وصوت إلى لغة مشتركة تسمى الرموز المميزة. بعد أن تم تدريبه على مليار زوج من الصور والنصوص، و270 فيديو.

قد يهمك أيضاً: كيفية ترجمة الفيديو باستخدام الذكاء الاصطناعي مع مزامنة الصوت والشفاه

كيف يمكن الوصول إلى VideoPoet وهل هو مجاني؟

للأسف، ما زال VideoPoet نموجاً تجريبياً، ولم يتم إطلاقه للعامة بعد. ولذلك لا يمكن أن نتنبأ بكونه مجاني أم لا. إلا أننا نأمل ذلك. وقد وعدت جوجل جمهورها بالعديد من الإمكانات الخارقة لهذا النموذج من خلال ورقتها البحثية التي نشرتها بعنوان: ” VideoPoet: نموذج لغوي كبير لإنشاء مقاطع فيديو بدون لقطات”.

وكما تحدثنا، لا يوجد منصة ثابتة بعد للوصول إلى VideoPoet نظراً لأنه لم يتم إطلاقه للعامة حتى الآن. وما زال نموذجاً يتم تجريبه وتطويره من قبل جوجل.

وفي ظل هذا التطور التكنولوجي السريع لتجسيد الخيال وتحويله إلى حقيقة. لا يمكننا أن نقول إلا أن التكنولوجيا، وخصوصاً الذكاء الاصطناعي يمكن أن يكون يوماً ما بوابة سحرية، يمكنها أن تجعل أمام ناظرنا كل ما يتهيأ لنا، وتحقق جميع أمانينا. وقد تكون أول خطوة تجاه هذه البوابة هو VideoPoet بإمكانياته العميقة وقدراته الفائقة.

قد يهمك أيضاً: كيفية ترجمة الفيديو باستخدام الذكاء الاصطناعي مع مزامنة الصوت والشفاه

الذكاء الاصطناعي جوجل