مدونة مجنون كمبيوتر - مقالات تقنية وشروحات مفيدة مع توصيات لأفضل برامج الكمبيوتر وتطبيقات الجوال

الكشف عن موديل لغوي MusicGen من Meta ينشئ موسيقى جديدة من النصوص

أطلق فريق أوديوكرافت التابع لميتا موديل MusicGen، وهو موديل لغوي عميق مفتوح المصدر يمكنه إنشاء موسيقى جديدة بالذكاء الاصطناعي بناءً على نصوص تمنحها له وحتى يتماشى مع أغنية موجودة. إنه شبيه بـ ChatGPT للصوت، حيث يتيح لك وصف نمط الموسيقى التي تريدها، وإدخال لحن موجود (اختياريًا) ثم النقر على “إنشاء”. استخدم الفريق 20 ألف ساعة من الموسيقى المرخصة للتدريب، بما في ذلك 10 آلاف مقطوعة موسيقية عالية الجودة من مجموعة بيانات داخلية، إضافة إلى مقاطع من شاترستوك وبوند 5. يمكن استخدام MusicGen مفتوح المصدر حتى لإنشاء موسيقى تجارية.

ما هو MusicGen مولّد الموسيقى من Meta ? 

 

يعتمد MusicGen على تقنية wav2vec 2.0، وهي تقنية تعلم ذاتي لتمثيل الصوت، والتي تستطيع التدريب على بيانات غير موسومة. وبالجمع بين مصادر بيانات غير تقليدية وموديل صوتي ذاتي التعلم، أدى ذلك إلى نتائج مذهلة. يمكن تشغيل MusicGen محليًا (يوصى بوجود وحدة معالجة رسومات بسعة 16 جيجابايت على الأقل) وهو متاح بأربعة أحجام مختلفة، من الصغير (300 مليون معامل) إلى الكبير (3.3 مليار معامل) – حيث يمتلك الأخير أكبر إمكانية لإنتاج موسيقى معقدة.

يمكن لـ MusicGen التعامل مع كل من نصوص وألحان الموسيقى بالإضافة إلى كفاءة الهيكل وسرعة الإنشاء، يتميز MusicGen بقدرته على التعامل مع كل من نصوص وألحان الموسيقى. يحدد النص النمط الأساسي، الذي يتطابق بعد ذلك مع اللحن في ملف الصوت. طبقاً لتقرير The Decoder.

على سبيل المثال، إذا قمت بدمج نص “مقطوعة موسيقية إلكترونية خفيفة ومبهجة مع طبول متزامنة، وأصوات هوائية ومشاعر قوية، سرعة: 130 نبضة في الدقيقة” مع لحن “توكاتا وفوغا في ري دو مينور (BWV 565)” الشهير لباخ، يمكن إنشاء قطعة موسيقية كالتالية.

هذا الإنجاز هو أحدث مثال على سرعة التطور المذهلة للذكاء الاصطناعي خلال النصف الأخير من السنة، حيث تهدد نماذج التعلم العميق بالاستيلاء على نوع آخر من الفنون. وقال فريق أوديوكرافت: “نأمل من خلال هذا العمل أن نقدم مساهمة صغيرة لإثراء المشهد الموسيقي في العالم وتشجيع المبدعين على استخدام MusicGen في أعمالهم”.

ما هو MusicGen مولّد الموسيقى من Meta

تفوق نسبي من MusicGen على جوجل MusicLM

MusicGen يتفوق على MusicLM من جوجل أجرى مؤلفو الدراسة اختبارات على ثلاث نسخ من موديلهم بأحجام مختلفة: 300 مليون (300M)، و1.5 مليار (1.5B)، و3.3 مليار (3.3B) معامل. ووجدوا أن النماذج الأكبر حجمًا تنتج صوتًا عالي الجودة، لكن النموذج ذو 1.5 مليار معامل حصل على أفضل تقييم من قبل البشر. أما النموذج ذو 3.3 مليار معامل، فهو أفضل في مطابقة دقيقة بين المدخلات النصية والمخرجات الصوتية.

يسمح الاستخدام التجاري. متاح على منصة Huggingface

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. AcceptRead More