近日,Stability AI 公司基于其知名的Stable Diffusion文生圖模型,進(jìn)一步拓展至音頻領(lǐng)域,推出了全新的開源AI模型——Stable Audio Open。該模型能夠根據(jù)用戶輸入的提示詞,生成高質(zhì)量、多樣化的音頻樣本,為音樂創(chuàng)作、音效設(shè)計等領(lǐng)域注入了新的活力。
Stable Audio Open模型通過采用基于transforms的擴(kuò)散模型(DiT),在自動編碼器的潛在空間中操作,極大提升了生成音頻的質(zhì)量和多樣性。目前,該模型最長可以創(chuàng)建47秒的音樂片段,非常適合用于鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效等多種場景。
據(jù)悉,Stable Audio Open模型已經(jīng)正式開源,并可通過HuggingFace平臺供用戶試用。在訓(xùn)練過程中,該模型使用了來自FreeSound和Free Music Archive等音樂庫的超過48.6萬個樣本,確保了生成的音頻具有廣泛的風(fēng)格和類型覆蓋。
Stability AI公司強(qiáng)調(diào),雖然Stable Audio Open能夠生成高質(zhì)量的簡短音樂片段,但目前并不適合用于生成完整的歌曲、旋律或人聲。這主要是因?yàn)槟P偷脑O(shè)計初衷在于提供快速、靈活的音頻創(chuàng)作工具,而非替代專業(yè)的音樂制作軟件。
值得一提的是,Stable Audio Open與Stability AI公司之前推出的Stable Audio 2.0有所不同。后者是一個商業(yè)模型,能夠生成最長3分鐘的完整音頻,適用于更廣泛的音頻創(chuàng)作需求。而Stable Audio Open則是一個專注于短音頻片段和音效的開源模型,為用戶提供了更多的自定義和靈活性。
Stable Audio Open的發(fā)布標(biāo)志著Stability AI在音頻生成領(lǐng)域的又一重要進(jìn)展。隨著人工智能技術(shù)的不斷發(fā)展,我們期待未來能夠看到更多創(chuàng)新、實(shí)用的音頻生成模型和應(yīng)用的出現(xiàn)。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/659468.html