亚洲αv无码中文,国产日韩久久久久69影院

Stability AI 推出開源音頻生成模型 Stable Audio Open

AI ? 2024年6月6日 16:35:00 ? AI

近日，Stability AI 公司基于其知名的Stable Diffusion文生圖模型，進(jìn)一步拓展至音頻領(lǐng)域，推出了全新的開源AI模型——Stable Audio Open。該模型能夠根據(jù)用戶輸入的提示詞，生成高質(zhì)量、多樣化的音頻樣本，為音樂創(chuàng)作、音效設(shè)計等領(lǐng)域注入了新的活力。

Stable Audio Open模型通過采用基于transforms的擴(kuò)散模型（DiT），在自動編碼器的潛在空間中操作，極大提升了生成音頻的質(zhì)量和多樣性。目前，該模型最長可以創(chuàng)建47秒的音樂片段，非常適合用于鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效等多種場景。

據(jù)悉，Stable Audio Open模型已經(jīng)正式開源，并可通過HuggingFace平臺供用戶試用。在訓(xùn)練過程中，該模型使用了來自FreeSound和Free Music Archive等音樂庫的超過48.6萬個樣本，確保了生成的音頻具有廣泛的風(fēng)格和類型覆蓋。

Stability AI公司強(qiáng)調(diào)，雖然Stable Audio Open能夠生成高質(zhì)量的簡短音樂片段，但目前并不適合用于生成完整的歌曲、旋律或人聲。這主要是因?yàn)槟Ｐ偷脑O(shè)計初衷在于提供快速、靈活的音頻創(chuàng)作工具，而非替代專業(yè)的音樂制作軟件。

值得一提的是，Stable Audio Open與Stability AI公司之前推出的Stable Audio 2.0有所不同。后者是一個商業(yè)模型，能夠生成最長3分鐘的完整音頻，適用于更廣泛的音頻創(chuàng)作需求。而Stable Audio Open則是一個專注于短音頻片段和音效的開源模型，為用戶提供了更多的自定義和靈活性。

Stable Audio Open的發(fā)布標(biāo)志著Stability AI在音頻生成領(lǐng)域的又一重要進(jìn)展。隨著人工智能技術(shù)的不斷發(fā)展，我們期待未來能夠看到更多創(chuàng)新、實(shí)用的音頻生成模型和應(yīng)用的出現(xiàn)。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請注明出處：http://2079x.cn/article/659468.html