解碼「天工SkyMusic」,填補(bǔ)AI音樂領(lǐng)域技術(shù)空白

這幾周,全球無不對AI音樂大模型那”以假亂真“的音樂創(chuàng)作能力感到驚奇不已,甚至有人認(rèn)為“AI將革新音樂產(chǎn)業(yè)”。

而位居這場革新風(fēng)暴中心的,正是昆侖萬維推出的國內(nèi)唯一公開可用的AI音樂生成大模型——「天工SkyMusic」。

自開啟邀測以來,「天工SkyMusic」已經(jīng)在互聯(lián)網(wǎng)上刷爆了存在感,成為網(wǎng)友們改編、二創(chuàng)音樂的新晉網(wǎng)紅神器。

遲遲等不到的“音樂ChatGPT”時(shí)刻

相信大家在體驗(yàn)「天工SkyMusic」時(shí),都會有一個(gè)疑問:隔壁AI視頻生成大模型都開始輔助創(chuàng)作了,為什么「天工SkyMusic」這類AI音樂生成大模型才才嶄露頭角?

原因在于構(gòu)建生成高質(zhì)量音樂的AI大模型,所面臨的復(fù)雜度遠(yuǎn)超想象。

一方面是技術(shù)路線的選擇,AI音樂生成大模型有兩種主流技術(shù)路線,符號音樂生成和大模型音樂音頻生成。前者以MIDI為主要流派,其本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個(gè)音符被播放、音量是多少、音符持續(xù)的時(shí)間等,不能生成直接聽的音樂。

學(xué)術(shù)與產(chǎn)業(yè)界在符號派的AI音樂生成上投入了大量研究,但是始終效果不佳。

相反,深度學(xué)習(xí)大規(guī)模音頻數(shù)據(jù)則通過大模型端對端的方案,直接生成包含樂器、人聲、旋律等音樂元素的完整音頻作品。它需要模型具備極高的模擬精確度、大規(guī)模的高品質(zhì)音頻數(shù)據(jù)集、龐大的算力支撐……

這是一條預(yù)期效果更好,但是難度非常高的技術(shù)路徑,業(yè)內(nèi)只有很少玩家展開研究。

同時(shí),鑒于歌聲在音樂審美中的核心地位,AI對人聲歌唱逼真模擬的研究也尤為關(guān)鍵。遺憾的是,受限于技術(shù)發(fā)展,以往AI音樂生成模型更關(guān)注無人聲演唱的背景音樂(Background Music,BGM)領(lǐng)域,而非包含人聲演唱的Song領(lǐng)域,因此行業(yè)內(nèi)缺乏有效的解決方案。

因此在AI音樂生成領(lǐng)域,無論是OpenAI的JukeBox、Meta的MusicGen,還是Google的MusicLM,它們雖然逐步解決了AI音樂生成中的痛點(diǎn),但距離生成高品質(zhì)且類型豐富的音樂作品還有一定距離。

「天工SkyMusic」自研發(fā)階段即確立目標(biāo),要開發(fā)一款輔助用戶創(chuàng)作高質(zhì)量音樂的工具。團(tuán)隊(duì)毅然選擇了AI音樂生成大模型的道路,并決定重點(diǎn)攻克人聲歌唱難題,勇敢涉足AI音樂制作領(lǐng)域內(nèi)兩個(gè)最具挑戰(zhàn)的無人區(qū)。

「天工SkyMusic」架構(gòu)誕生記

面對大模型音樂音頻生成+人聲Song這兩個(gè)近乎空白的技術(shù)領(lǐng)域,昆侖萬維傾注了海量研發(fā)資源和算力算法投入,不斷試錯(cuò),終于自主研發(fā)出一套音樂音頻領(lǐng)域的大模型架構(gòu)。

解碼「天工SkyMusic」,填補(bǔ)AI音樂領(lǐng)域技術(shù)空白

這是一套類似Sora的DiT大模型架構(gòu),采用LLM+Diffusion的核心模塊組成。

其中,用戶輸入的參考音樂會被拆解為不同的Music Patches,由Large-scale Transformer負(fù)責(zé)譜曲,來學(xué)習(xí)Music Patches的上下文依賴關(guān)系,同時(shí)完成音樂可控性。

同時(shí),Diffusion Transformer將負(fù)責(zé)大模型的“演唱”部分,通過LDM(Latent Diffusion Model)擴(kuò)散模型讓Music Patches被還原成成44.1KHz的高品質(zhì)立體聲的音頻。

昆侖萬維這套高效、靈活且具有情感表達(dá)能力的音樂生成模型架構(gòu),填補(bǔ)了音頻生成+人聲Song這兩技術(shù)領(lǐng)域的空白,堪稱AI音樂生成領(lǐng)域的一大技術(shù)飛躍,也讓昆侖萬維公開「天工SkyMusic」技術(shù)原理圖的舉措更讓人敬佩,它不僅打破了行業(yè)內(nèi)的封閉狀態(tài),更為更是為整個(gè)產(chǎn)業(yè)鋪墊了一條可復(fù)現(xiàn)的技術(shù)路徑,大大降低整個(gè)AI音樂生成產(chǎn)業(yè)的研發(fā)風(fēng)險(xiǎn)。

AI音樂破曉:「天工SkyMusic」的中國式突破

從「天工SkyMusic」的技術(shù)分析中我們可以看到,昆侖萬維在研發(fā)過程中克服了諸多技術(shù)難題,為我們打造出一個(gè)真正意義上,能高效創(chuàng)作高品質(zhì)音樂的AI音樂生成大模型。在這里,我們可以生成時(shí)長80秒,采樣率44.1KHz的雙聲道立體聲歌曲,還可以通過歌詞控制歌曲的情緒變化,精確區(qū)分不同音樂結(jié)構(gòu)間的情感起伏,也可完成各種復(fù)雜歌唱技巧。

而且較之國外同類產(chǎn)品,「天工SkyMusic」最明顯的差異是在中文人聲歌唱上發(fā)音純正清晰,無明顯機(jī)械痕跡,效果逼真的程度足以“以假亂真”。這不僅讓中文歌詞韻味和情感表達(dá)更為出色,也在表達(dá)中國文化特有的意境與情感內(nèi)涵時(shí),更加貼合國人的審美習(xí)慣與情感認(rèn)同,形成獨(dú)有的差異化優(yōu)勢。

情感AGI待放:天工SkyMusic」引領(lǐng)情感創(chuàng)作變革

「天工SkyMusic」作為昆侖萬維 “All in AGI和AIGC”戰(zhàn)略下在音樂領(lǐng)域的先鋒之作,填補(bǔ)了傳統(tǒng)AGI側(cè)重于智力拓展而忽視情感維度的空白,標(biāo)志著昆侖萬維在情感AGI研究中取得的重大突破。

如今,「天工SkyMusic」不僅降低音樂創(chuàng)作門檻,讓更多普通用戶能夠借助這款全民音樂創(chuàng)作工具的力量,更好地通過音樂這一媒介,表達(dá)自己的情感和創(chuàng)意。未來,隨著昆侖萬維在情感AGI技術(shù)上不斷的突破,「天工SkyMusic」將具備更多令人驚嘆的創(chuàng)作能力,亦有望成為輔助專業(yè)音樂創(chuàng)作者的利器。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://show.wolaioa.com.cn/preview/E3JtFBKZw36o000ofZ6KfH6Ahg.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論