
近日,豆包大模型團(tuán)隊(duì)攜手北京交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué),共同推出了一款名為“VideoWorld”的視頻生成實(shí)驗(yàn)?zāi)P停⑿技慈掌鹈嫦蚬婇_(kāi)源。
VideoWorld在業(yè)界首次實(shí)現(xiàn)了無(wú)需依賴語(yǔ)言模型即可認(rèn)知世界的創(chuàng)新突破。傳統(tǒng)多模態(tài)模型如Sora、DALL-E、Midjourney等大多依賴語(yǔ)言或標(biāo)簽數(shù)據(jù)學(xué)習(xí),但語(yǔ)言并不能全面捕捉真實(shí)世界的知識(shí)。而VideoWorld則摒棄了語(yǔ)言模型,通過(guò)純視覺(jué)信號(hào)的學(xué)習(xí),實(shí)現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)的能力。
該模型基于一種先進(jìn)的潛在動(dòng)態(tài)模型,能夠高效壓縮視頻幀間的變化信息,從而大幅提升知識(shí)學(xué)習(xí)的效率和效果。更令人矚目的是,在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制的前提下,VideoWorld已經(jīng)展現(xiàn)出了專業(yè)級(jí)的圍棋水平,達(dá)到了5段9×9的標(biāo)準(zhǔn),并能在多種環(huán)境中執(zhí)行復(fù)雜的機(jī)器人任務(wù)。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/705620.html