Stability AI發(fā)布Stable Video Diffusion模型把靜態(tài)圖片生成高質(zhì)量的視頻

Stability AI發(fā)布Stable Video Diffusion模型把靜態(tài)圖片生成高質(zhì)量的視頻

初創(chuàng)公司Stability AI專注于開發(fā)人工智能(AI)產(chǎn)品,最近發(fā)布了一款令人期待的AI模型——Stable Video Diffusion。這款模型的獨(dú)特之處在于,它能夠通過現(xiàn)有的靜態(tài)圖片生成高質(zhì)量的視頻,是基于之前發(fā)布的Stable Diffusion文本轉(zhuǎn)圖片模型的延伸。目前市面上能夠生成視頻的AI模型相對較少,因此Stable Video Diffusion引起了廣泛關(guān)注。

然而,需要注意的是,Stable Video Diffusion目前并不對所有人開放。它目前處于Stability AI所謂的“研究預(yù)覽”階段。想要使用這款模型的人必須同意一些使用條款,其中規(guī)定了Stable Video Diffusion的預(yù)期應(yīng)用場景(例如“教育或創(chuàng)意工具”、“設(shè)計(jì)和其他藝術(shù)過程”等)以及非預(yù)期的場景(例如“對人或事件的事實(shí)或真實(shí)的表達(dá)”)。

Stable Video Diffusion實(shí)際上由兩個(gè)模型組成:SVD和SVD-XT。SVD可以將靜態(tài)圖片轉(zhuǎn)化為14幀的576×1024像素視頻,而SVD-XT則使用相同的架構(gòu),但將幀數(shù)提高到24。兩者都能以每秒3到30幀的速度生成視頻。

根據(jù)Stability AI發(fā)布的白皮書,SVD和SVD-XT最初是在一個(gè)包含數(shù)百萬視頻的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,然后在一個(gè)規(guī)模較小的數(shù)據(jù)集上進(jìn)行了“微調(diào)”,這個(gè)數(shù)據(jù)集只有幾十萬到一百萬左右的視頻片段。雖然這些視頻的來源并不十分清楚,但白皮書暗示許多是來自公開的研究數(shù)據(jù)集,因此無法判斷是否存在版權(quán)問題。

盡管Stable Video Diffusion還存在一些局限性,Stability AI對此也很坦誠。例如,這些模型不能生成沒有運(yùn)動或緩慢攝像機(jī)平移的視頻,也不能通過文本進(jìn)行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地“正確地”生成人臉和人物。

雖然目前還處于早期階段,但Stability AI指出這些模型非常具有擴(kuò)展性,可以適應(yīng)諸如生成物體的360度視圖等用例。最終,Stability AI的目標(biāo)是將Stable Video Diffusion商業(yè)化,稱其在“廣告、教育、娛樂等領(lǐng)域”都有潛在的應(yīng)用。這一新穎的AI模型無疑將為視頻生成領(lǐng)域帶來新的可能性。

Stability AI發(fā)布Stable Video Diffusion模型把靜態(tài)圖片生成高質(zhì)量的視頻

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/597666.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論