谷歌研究團(tuán)隊(duì)近日發(fā)布了全新的通用視頻編碼器——VideoPrism,其在3600萬高質(zhì)量視頻字幕對和5.82億視頻剪輯的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在33項(xiàng)視頻理解基準(zhǔn)測試中刷新了30項(xiàng)SOTA(最先進(jìn)技術(shù))成績。
VideoPrism的設(shè)計(jì)旨在通過單一凍結(jié)模型處理各種視頻理解任務(wù),包括分類、定位、檢索、字幕和問答等。其設(shè)計(jì)理念主要基于預(yù)訓(xùn)練數(shù)據(jù)和兩階段訓(xùn)練法。預(yù)訓(xùn)練數(shù)據(jù)方面,谷歌團(tuán)隊(duì)通過匯集高質(zhì)量視頻字幕對和帶有噪聲的并行文本,構(gòu)建了一個(gè)龐大的語料庫。在建模方面,VideoPrism采用了對比學(xué)習(xí)和掩碼視頻建模兩個(gè)階段,以優(yōu)化語義視頻嵌入和全局提煉。
VideoPrism的出色表現(xiàn)不僅體現(xiàn)在分類和定位任務(wù)上,還能進(jìn)行視頻-文本檢索和QA問答。例如,給定一段視頻,VideoPrism可以準(zhǔn)確地檢索出與文本內(nèi)容相匹配的視頻片段,或者根據(jù)視頻內(nèi)容回答相關(guān)問題。
谷歌團(tuán)隊(duì)表示,VideoPrism的成功驗(yàn)證了通用視覺編碼器在視頻理解領(lǐng)域的巨大潛力。未來,隨著數(shù)據(jù)集的擴(kuò)大和模型的不斷優(yōu)化,VideoPrism有望在更多領(lǐng)域?qū)崿F(xiàn)突破,為視頻理解和應(yīng)用提供更強(qiáng)大的支持。
原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/632435.html