
近日,小米大模型團(tuán)隊(duì)在音頻推理領(lǐng)域取得重大突破,成功登頂國(guó)際權(quán)威的MMAU(Masive Multi-Task Audio Understanding and Reasoning)音頻理解評(píng)測(cè)榜首。這一成就得益于團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)算法應(yīng)用于多模態(tài)音頻理解任務(wù),僅用一周時(shí)間便實(shí)現(xiàn)了64.5%的SOTA(State Of The Art)準(zhǔn)確率。
據(jù)悉,MMAU評(píng)測(cè)集通過(guò)一萬(wàn)條涵蓋語(yǔ)音、環(huán)境聲和音樂(lè)的音頻樣本,測(cè)試模型在27種技能上的表現(xiàn),期望模型達(dá)到接近人類專家的邏輯分析水平。此前,表現(xiàn)最好的模型來(lái)自OpenAI的GPT-4o,準(zhǔn)確率為57.3%。小米團(tuán)隊(duì)受DeepSeek-R1啟發(fā),將GRPO算法遷移到Qwen2-Audio-7B模型上,在僅使用3.8萬(wàn)條訓(xùn)練樣本的情況下,實(shí)現(xiàn)了顯著的性能提升。
此次實(shí)驗(yàn)不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻推理領(lǐng)域的獨(dú)特價(jià)值,也為后續(xù)研究提供了新的思路。小米團(tuán)隊(duì)表示,將把訓(xùn)練代碼、模型參數(shù)開(kāi)源,并提供技術(shù)報(bào)告,供學(xué)術(shù)界和產(chǎn)業(yè)界參考交流。這一成果標(biāo)志著小米在人工智能領(lǐng)域的技術(shù)實(shí)力不斷提升,也為智能聽(tīng)覺(jué)時(shí)代的發(fā)展注入了新的活力。
原創(chuàng)文章,作者:XIAOMI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/710539.html