在中關(guān)村論壇的未來人工智能先鋒論壇中,生數(shù)科技與清華大學攜手,正式推出了中國首個具備長時長、高一致性及高動態(tài)性的視頻大模型——“Vidu”。
這款引領(lǐng)時代的視頻大模型,其核心在于團隊原創(chuàng)的Diffusion與Transformer融合的U-ViT架構(gòu)。它不僅能一鍵生成長達16秒、清晰度達到1080P的高清視頻,更能在模擬真實物理世界的同時,展現(xiàn)出驚人的想象力。多鏡頭生成、時空高度一致,這些都是Vidu的獨特魅力。
值得一提的是,Vidu自發(fā)布以來,便在全球范圍內(nèi)取得了顯著突破,其性能與國際頂尖水平比肩,并仍在不斷迭代優(yōu)化中。這一成就,離不開團隊在貝葉斯機器學習和多模態(tài)大模型領(lǐng)域的深厚積累和多項原創(chuàng)性成果。
特別是團隊于2022年9月提出的U-ViT架構(gòu),作為全球首個Diffusion與Transformer的融合架構(gòu),為Vidu的誕生奠定了堅實基礎(chǔ)。隨后,在2023年3月,團隊再次領(lǐng)先,開源了基于U-ViT融合架構(gòu)的多模態(tài)擴散模型UniDiffuser,成功驗證了U-ViT架構(gòu)的大規(guī)??蓴U展性。
基于對U-ViT架構(gòu)的深入理解和豐富的工程、數(shù)據(jù)經(jīng)驗,團隊在極短的時間內(nèi)攻克了長視頻表示與處理的多項關(guān)鍵技術(shù)難題,從而研發(fā)出了Vidu視頻大模型。這款模型在提升視頻連貫性和動態(tài)性方面表現(xiàn)出色,進一步推動了視頻處理技術(shù)的發(fā)展。
Vidu的問世,不僅再次驗證了U-ViT融合架構(gòu)在大規(guī)模視覺任務(wù)中的卓越性能,也展示了生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的持續(xù)創(chuàng)新能力和行業(yè)領(lǐng)先地位。作為通用視覺模型,Vidu能夠生成更加多樣化、更長時長的視頻內(nèi)容,其靈活的架構(gòu)也將為未來兼容更廣泛的模態(tài)、拓展多模態(tài)通用能力的邊界提供無限可能。
原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/651014.html