亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型:BASE TTS

亞馬遜發(fā)布史上最大文本轉(zhuǎn)語音模型:BASE TTS

亞馬遜Amazon人工智能研究團(tuán)隊(duì)近日宣布開發(fā)出一個(gè)巨大的文本轉(zhuǎn)語音模型——BASE TTS,其規(guī)模之大堪稱史上之最。該模型擁有驚人的9.8億個(gè)參數(shù),并使用了超過10萬小時(shí)的錄音數(shù)據(jù)進(jìn)行訓(xùn)練,涵蓋了大量英語語音,還融入了一些其他語言的發(fā)音示例。

近年來,大型語言模型如ChatGPT備受矚目,而亞馬遜Amazon此次則將焦點(diǎn)轉(zhuǎn)向了文本轉(zhuǎn)語音領(lǐng)域。研究人員希望通過增加參數(shù)數(shù)量和擴(kuò)充訓(xùn)練數(shù)據(jù)集,提升文本轉(zhuǎn)語音應(yīng)用的性能和自然度。他們的努力成果顯著,BASE TTS不僅在參數(shù)數(shù)量上創(chuàng)造了新紀(jì)錄,還在發(fā)音準(zhǔn)確性和語音自然度方面取得了顯著進(jìn)步。

值得一提的是,亞馬遜Amazon團(tuán)隊(duì)還探索了人工智能領(lǐng)域中的“涌現(xiàn)能力”。他們發(fā)現(xiàn),在參數(shù)量達(dá)到1.5億的中型數(shù)據(jù)集上,文本轉(zhuǎn)語音應(yīng)用出現(xiàn)了明顯的智能飛躍。這種飛躍涉及多個(gè)語言屬性,如使用復(fù)合名詞、表達(dá)情感、使用外語詞等。這一發(fā)現(xiàn)對(duì)于未來人工智能模型的發(fā)展具有重要意義。

然而,出于對(duì)潛在濫用風(fēng)險(xiǎn)的擔(dān)憂,亞馬遜Amazon決定不將BASE TTS向公眾開放。相反,他們計(jì)劃將其作為學(xué)習(xí)應(yīng)用,并期望將學(xué)到的知識(shí)應(yīng)用于改善文本轉(zhuǎn)語音應(yīng)用的整體音質(zhì)。這一決策體現(xiàn)了亞馬遜對(duì)于技術(shù)倫理和社會(huì)責(zé)任的重視。

總的來說,亞馬遜Amazon發(fā)布的BASE TTS文本轉(zhuǎn)語音模型是人工智能領(lǐng)域的一次重大突破。它不僅展示了人工智能技術(shù)的巨大潛力,還為我們提供了更多關(guān)于智能涌現(xiàn)的新見解。隨著技術(shù)的不斷進(jìn)步,我們有理由相信,未來的文本轉(zhuǎn)語音應(yīng)用將會(huì)更加自然、智能和多樣化。

原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/630828.html

秋秋的頭像秋秋管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論