谷歌推出Gemini 1.5 Pro模型:新增音頻理解及系統(tǒng)指令功能,引領(lǐng)AI技術(shù)新突破

谷歌推出Gemini 1.5 Pro模型:新增音頻理解及系統(tǒng)指令功能,引領(lǐng)AI技術(shù)新突破

近日,科技巨頭谷歌在AI領(lǐng)域再度邁出重要步伐,正式向全球180多個(gè)國家和地區(qū)推出其備受期待的Gemini 1.5 Pro模型。該模型不僅繼承了Gemini系列的一貫優(yōu)秀表現(xiàn),還在原有基礎(chǔ)上實(shí)現(xiàn)了重大升級(jí),特別新增了音頻理解能力,并引入了系統(tǒng)指令和JSON模式等新功能,為開發(fā)者提供了更為強(qiáng)大和靈活的控制手段。

據(jù)悉,Gemini 1.5 Pro模型自兩個(gè)月前在Google Ai Studio中供部分開發(fā)者測(cè)試以來,就憑借其1M上下文窗口的出色性能和原生的音頻理解能力受到了廣泛關(guān)注。此次全球范圍內(nèi)的正式推出,無疑將進(jìn)一步推動(dòng)AI技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。

在音頻理解方面,Gemini 1.5 Pro模型實(shí)現(xiàn)了對(duì)上傳的視頻圖像(幀)和音頻(語音)的推理能力,這一功能的解鎖為音頻和視頻處理領(lǐng)域帶來了新的用例和可能性。開發(fā)者可以通過Google Ai Studio和Gemini API調(diào)用該模型,對(duì)音頻和視頻數(shù)據(jù)進(jìn)行深度分析和處理,從而開發(fā)出更加智能和高效的應(yīng)用。

此外,Gemini 1.5 Pro模型還新增了系統(tǒng)指令功能,允許開發(fā)者通過定義角色、格式、目標(biāo)和規(guī)則等方式,對(duì)模型的響應(yīng)進(jìn)行精確指導(dǎo)。這一功能的引入將極大地提高模型的可控性和適應(yīng)性,使得開發(fā)者能夠針對(duì)不同用例對(duì)模型進(jìn)行更加精準(zhǔn)的引導(dǎo)。

同時(shí),為了滿足開發(fā)者對(duì)結(jié)構(gòu)化數(shù)據(jù)的需求,Gemini 1.5 Pro模型還支持JSON模式輸出。在JSON模式下,模型僅輸出為JSON對(duì)象,便于從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。開發(fā)者可以使用cURL進(jìn)行調(diào)用,后續(xù)還將支持Python SDK,進(jìn)一步簡(jiǎn)化了數(shù)據(jù)處理的流程。

在函數(shù)調(diào)用方面,Gemini 1.5 Pro模型也進(jìn)行了改進(jìn)。開發(fā)者現(xiàn)在可以選擇不同的模式來限制模型的輸出,從而提高輸出的可靠性和準(zhǔn)確性。無論是選擇文本、函數(shù)調(diào)用還是僅函數(shù)本身等模式,都能根據(jù)具體需求進(jìn)行靈活調(diào)整。

除了上述功能升級(jí)外,谷歌還推出了下一代文本嵌入模型text-embedding-004/text-embedding-preview-0409。據(jù)谷歌稱,該模型在MTEB基準(zhǔn)測(cè)試中實(shí)現(xiàn)了更強(qiáng)的檢索性能,并且優(yōu)于具有可對(duì)比緯度的現(xiàn)有模型。這一新嵌入式模型的推出將為文本處理和分析提供更加高效和精準(zhǔn)的工具。

總的來說,Gemini 1.5 Pro模型的推出標(biāo)志著谷歌在AI技術(shù)領(lǐng)域的又一次重要突破。通過新增音頻理解、系統(tǒng)指令和JSON模式等功能,該模型為開發(fā)者提供了更加強(qiáng)大和靈活的控制手段,將有望推動(dòng)AI技術(shù)在各個(gè)領(lǐng)域的應(yīng)用和發(fā)展。未來,我們期待看到更多基于Gemini 1.5 Pro模型的創(chuàng)新應(yīng)用和產(chǎn)品問世,為人類生活帶來更多便利和驚喜。

原創(chuàng)文章,作者:Google,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/645877.html

Google的頭像Google認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論