سباق الذكاء الاصطناعي الصوتي: سونو إيه آي في مواجهة غوغل ديب مايند
شهد العامان الأخيران تطوراً ملحوظاً في نماذج الذكاء الاصطناعي التوليدي الصوتي، مع بروز منافسة قوية بين شركتي “سونو إيه آي” (Suno AI) و”غوغل ديب مايند” (Google DeepMind). تركز “سونو” على المحاكاة الهيكلية الكاملة للموسيقى، بينما تتبنى “ديب مايند” نهج النمذجة الموجية الدقيقة. واذ أجرت “الجزيرة نت” مقارنة بين النظامين، تبين أن لكل منهما نقاط قوة وضعف مميزة، خاصة عند تطبيقها على الموسيقى العربية.
البنية التحتية ونمذجة الصوت (Architecture)
يعتمد نموذج “سونو” على بنية مشابهة نماذج اللغات الكبيرة، حيث يتنبأ بالتوكنات الصوتية التالية بناءً على بيانات تدريبية ضخمة. يمتاز “سونو” بفهمه العميق لتراتبية الأغنية، وقدرته على توليد مقاطع طويلة ومتناسقة تصل إلى أربع دقائق. ومع ذلك، قد يعاني أحيانًا من “الضجيج الرقمي” الذي يصعب عملية الهندسة العكسية.
في المقابل، تستخدم “ليريا” (Lyria) من “غوغل ديب مايند” تقنيات متقدمة في معالجة الإشارات الرقمية والشبكات العصبية العميقة، لإنشاء نماذج صوتية دقيقة تتعامل مع الموجة الصوتية مباشرة. يتميز “ليريا” بمعدل عينة مرتفع وعمق بت يمنحان صوتاً بجودة استوديو، بالإضافة إلى تقنية “سينث آي دي” (SynthID) التي تدمج علامة مائية غير مسموعة لحماية الحقوق.
معالجة الموسيقى العربية: المقامات والإيقاع
عند تطبيق هذه التقنيات على الموسيقى العربية، تظهر الفروقات بشكل واضح. يمتلك “سونو” قاعدة بيانات واسعة من الأغاني العربية المعاصرة، مما يجعله بارعًا في محاكاة الروح الأدائية والتعبير الصوتي، خاصة في الأنماط الشعبية والبوب.
من ناحية أخرى، يركز “ليريا” على “فيزيائية الآلة”، فيقوم بمحاكاة رنين الآلات العربية الأصيلة مثل العود والقانون بدقة فائقة، مما يجعله الخيار الأمثل للمقطوعات الآلية والموسيقى التصويرية التي تتطلب نقاءً صوتيًا عالياً.
تُبذل جهود في كلا النظامين لمحاكاة المقامات الشرقية عبر الموازنة الدقيقة للترددات الرقمية. ورغم نجاحهما في تقديم مقطوعات لغوياً ونغمياً متماسكة، إلا أن التنفيذ لا يزال يعتمد على الأنماط الإحصائية.
نموذج تطبيقي
لتحقيق أفضل النتائج، ينصح باستخدام الوضع المخصص في “سونو” مع استخدام “وسوم المقاطع” مثل [Intro], [Verse], [Chorus], [Bridge], [Outro] في قسم الكلمات. بالإضافة إلى وصف تفصيلي لنمط الموسيقى يتضمن الشعور، الآلات، الإيقاع، وخامة الصوت المطلوبة، مع تجنب ذكر أسماء فنانين محددين.
أما في “ليريا”، فالتركيز يكون على الوصف التقني الدقيق، مثل “تخت عربي أصيل، ناي منفرد بصدى عميق، مكبر ميكروفون أولي عتيق برنين تناظري”. يُفضل توليد مقاطع قصيرة أولاً ثم إضافة الأقسام الأخرى تدريجياً لضمان الحفاظ على جودة الآلات.
ما التالي؟
تستمر كلا الشركتين في تطوير نماذجهما، حيث يتوقع أن يوفر “ليريا” واجهات برمجية لإنتاج أغانٍ كاملة، بينما يسعى “سونو” لتحسين جودة ضغطه الصوتي. بالنسبة للمستخدم العربي، يعتمد الاختيار بين “سونو” و”ليريا” على الهدف المراد تحقيقه، ما بين الانتشار والعاطفة من جهة، والاحترافية والإبداع الصوتي من جهة أخرى.