الكشف عن موديل لغوي MusicGen من Meta ينشئ موسيقى جديدة من النصوص

By Mostafa Elsayed On يونيو 12, 2023 789 0

أطلق فريق أوديوكرافت التابع لميتا موديل MusicGen، وهو موديل لغوي عميق مفتوح المصدر يمكنه إنشاء موسيقى جديدة بالذكاء الاصطناعي بناءً على نصوص تمنحها له وحتى يتماشى مع أغنية موجودة. إنه شبيه بـ ChatGPT للصوت، حيث يتيح لك وصف نمط الموسيقى التي تريدها، وإدخال لحن موجود (اختياريًا) ثم النقر على “إنشاء”. استخدم الفريق 20 ألف ساعة من الموسيقى المرخصة للتدريب، بما في ذلك 10 آلاف مقطوعة موسيقية عالية الجودة من مجموعة بيانات داخلية، إضافة إلى مقاطع من شاترستوك وبوند 5. يمكن استخدام MusicGen مفتوح المصدر حتى لإنشاء موسيقى تجارية.

محتوى المقال إظهار

ما هو MusicGen مولّد الموسيقى من Meta ?

يعتمد MusicGen على تقنية wav2vec 2.0، وهي تقنية تعلم ذاتي لتمثيل الصوت، والتي تستطيع التدريب على بيانات غير موسومة. وبالجمع بين مصادر بيانات غير تقليدية وموديل صوتي ذاتي التعلم، أدى ذلك إلى نتائج مذهلة. يمكن تشغيل MusicGen محليًا (يوصى بوجود وحدة معالجة رسومات بسعة 16 جيجابايت على الأقل) وهو متاح بأربعة أحجام مختلفة، من الصغير (300 مليون معامل) إلى الكبير (3.3 مليار معامل) – حيث يمتلك الأخير أكبر إمكانية لإنتاج موسيقى معقدة.

يمكن لـ MusicGen التعامل مع كل من نصوص وألحان الموسيقى بالإضافة إلى كفاءة الهيكل وسرعة الإنشاء، يتميز MusicGen بقدرته على التعامل مع كل من نصوص وألحان الموسيقى. يحدد النص النمط الأساسي، الذي يتطابق بعد ذلك مع اللحن في ملف الصوت. طبقاً لتقرير The Decoder.

على سبيل المثال، إذا قمت بدمج نص “مقطوعة موسيقية إلكترونية خفيفة ومبهجة مع طبول متزامنة، وأصوات هوائية ومشاعر قوية، سرعة: 130 نبضة في الدقيقة” مع لحن “توكاتا وفوغا في ري دو مينور (BWV 565)” الشهير لباخ، يمكن إنشاء قطعة موسيقية كالتالية.

هذا الإنجاز هو أحدث مثال على سرعة التطور المذهلة للذكاء الاصطناعي خلال النصف الأخير من السنة، حيث تهدد نماذج التعلم العميق بالاستيلاء على نوع آخر من الفنون. وقال فريق أوديوكرافت: “نأمل من خلال هذا العمل أن نقدم مساهمة صغيرة لإثراء المشهد الموسيقي في العالم وتشجيع المبدعين على استخدام MusicGen في أعمالهم”.

تفوق نسبي من MusicGen على جوجل MusicLM

MusicGen يتفوق على MusicLM من جوجل أجرى مؤلفو الدراسة اختبارات على ثلاث نسخ من موديلهم بأحجام مختلفة: 300 مليون (300M)، و1.5 مليار (1.5B)، و3.3 مليار (3.3B) معامل. ووجدوا أن النماذج الأكبر حجمًا تنتج صوتًا عالي الجودة، لكن النموذج ذو 1.5 مليار معامل حصل على أفضل تقييم من قبل البشر. أما النموذج ذو 3.3 مليار معامل، فهو أفضل في مطابقة دقيقة بين المدخلات النصية والمخرجات الصوتية.

يسمح الاستخدام التجاري. متاح على منصة Huggingface