谷歌推出全能視頻編碼器VideoPrism 性能超越30項(xiàng)SOTA

谷歌推出全能視頻編碼器VideoPrism 性能超越30項(xiàng)SOTA

谷歌研究團(tuán)隊(duì)近日發(fā)布了全新的通用視頻編碼器——VideoPrism,其在3600萬(wàn)高質(zhì)量視頻字幕對(duì)和5.82億視頻剪輯的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在33項(xiàng)視頻理解基準(zhǔn)測(cè)試中刷新了30項(xiàng)SOTA(最先進(jìn)技術(shù))成績(jī)。

VideoPrism的設(shè)計(jì)旨在通過(guò)單一凍結(jié)模型處理各種視頻理解任務(wù),包括分類、定位、檢索、字幕和問(wèn)答等。其設(shè)計(jì)理念主要基于預(yù)訓(xùn)練數(shù)據(jù)和兩階段訓(xùn)練法。預(yù)訓(xùn)練數(shù)據(jù)方面,谷歌團(tuán)隊(duì)通過(guò)匯集高質(zhì)量視頻字幕對(duì)和帶有噪聲的并行文本,構(gòu)建了一個(gè)龐大的語(yǔ)料庫(kù)。在建模方面,VideoPrism采用了對(duì)比學(xué)習(xí)和掩碼視頻建模兩個(gè)階段,以優(yōu)化語(yǔ)義視頻嵌入和全局提煉。

VideoPrism的出色表現(xiàn)不僅體現(xiàn)在分類和定位任務(wù)上,還能進(jìn)行視頻-文本檢索和QA問(wèn)答。例如,給定一段視頻,VideoPrism可以準(zhǔn)確地檢索出與文本內(nèi)容相匹配的視頻片段,或者根據(jù)視頻內(nèi)容回答相關(guān)問(wèn)題。

谷歌團(tuán)隊(duì)表示,VideoPrism的成功驗(yàn)證了通用視覺(jué)編碼器在視頻理解領(lǐng)域的巨大潛力。未來(lái),隨著數(shù)據(jù)集的擴(kuò)大和模型的不斷優(yōu)化,VideoPrism有望在更多領(lǐng)域?qū)崿F(xiàn)突破,為視頻理解和應(yīng)用提供更強(qiáng)大的支持。

原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/632435.html

秋秋的頭像秋秋管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論