谷歌 DeepMind 展示 GenRM 技術(shù)，提升生成式 AI 推理能力

潮玩君 ? 2024年9月3日 10:57:00 ? AI

谷歌DeepMind發(fā)布GenRM技術(shù)，通過(guò)創(chuàng)新獎(jiǎng)勵(lì)模型增強(qiáng)生成式AI推理能力，提高大語(yǔ)言模型性能。GenRM能無(wú)縫集成指令調(diào)整，支持思維鏈推理，優(yōu)化結(jié)果質(zhì)量。在推理任務(wù)中表現(xiàn)優(yōu)于傳統(tǒng)驗(yàn)證器，標(biāo)志著AI獎(jiǎng)勵(lì)系統(tǒng)的重要演化。

9 月 3 日消息，谷歌 DeepMind 團(tuán)隊(duì)于 8 月 27 日在 arxiv 上發(fā)表論文，介紹展示了 GenRM 生成式驗(yàn)證器，創(chuàng)造性提出獎(jiǎng)勵(lì)模型，從而提升生成式 AI 推理能力。

谷歌 DeepMind 展示 GenRM 技術(shù)，提升生成式 AI 推理能力

AI 行業(yè)內(nèi)，目前提高大語(yǔ)言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 個(gè)候選解決方案由驗(yàn)證器進(jìn)行排序，并選出最佳方案。

這種基于 LLM 的驗(yàn)證器通常被訓(xùn)練成判別分類(lèi)器來(lái)為解決方案打分，但它們無(wú)法利用預(yù)訓(xùn)練 LLMs 的文本生成能力。

DeepMind 團(tuán)隊(duì)為了克服這個(gè)局限性，嘗試使用下一個(gè)token 預(yù)測(cè)目標(biāo)來(lái)訓(xùn)練驗(yàn)證器，同時(shí)進(jìn)行驗(yàn)證和解決方案生成。

DeepMind 團(tuán)隊(duì)這種生成式驗(yàn)證器（GenRM），相比較傳統(tǒng)驗(yàn)證器，主要包含以下優(yōu)點(diǎn)：

無(wú)縫集成指令調(diào)整

支持思維鏈推理

通過(guò)多數(shù)投票利用額外的推理時(shí)間計(jì)算

在算法和小學(xué)數(shù)學(xué)推理任務(wù)中使用基于 Gemma 的驗(yàn)證器時(shí)，GenRM 的性能優(yōu)于判別式驗(yàn)證器和 LLM-as-a-Judge 驗(yàn)證器，在使用 Best-of-N 解決問(wèn)題的百分比上提高了 16-64%。

據(jù) Google DeepMind 報(bào)道，GenRM 相對(duì)于分類(lèi)獎(jiǎng)勵(lì)模型的邊標(biāo)志著人工智能獎(jiǎng)勵(lì)系統(tǒng)的關(guān)鍵演化，特別是在其容量方面，以防止新模型學(xué)成到的欺詐行為。這一進(jìn)步突出表明，迫切需要完善獎(jiǎng)勵(lì)模型，使人工智能輸出與社會(huì)責(zé)任標(biāo)準(zhǔn)保持一致。

原創(chuàng)文章，作者：潮玩君，如若轉(zhuǎn)載，請(qǐng)注明出處：http://2079x.cn/article/677866.html

潮玩君管理團(tuán)隊(duì)

0 0

新聞

日本將Meta、TikTok等五巨頭被納入強(qiáng)監(jiān)管

日本總務(wù)省4月30日正式宣布，將谷歌、LINE雅虎、Meta、TikTok及X（原Twitter）五家跨國(guó)互聯(lián)網(wǎng)企業(yè)納入《信息流通平臺(tái)對(duì)策法》監(jiān)管體系。該法案自4月1日生效以來(lái)首次…

好奇寶寶
7小時(shí)前
AI

?谷歌Gemini AI將推Ultra訂閱版！視頻生成限制或解除

近日，據(jù)外媒報(bào)道稱(chēng)，谷歌計(jì)劃擴(kuò)展其人工智能服務(wù)Gemini AI的訂閱體系，或新增“Gemini Ultra”高級(jí)層級(jí)。此舉或進(jìn)一步強(qiáng)化其在生成式AI領(lǐng)域的商業(yè)化布局。目前，谷歌…

Google
1天前
新聞

?谷歌Chrome 136全球推送：封堵20年歷史隱私漏洞，用戶速更新

谷歌于近日宣布，正式向Windows、Mac及Linux平臺(tái)推出Chrome 136瀏覽器穩(wěn)定版，此次更新將在未來(lái)數(shù)周內(nèi)逐步覆蓋全球用戶。最核心的改進(jìn)是修復(fù)了一個(gè)存在超20年的隱私…

Google
2天前
新聞

?Android 16搶先劇透谷歌5月14日特別直播定檔

谷歌今日宣布將于北京時(shí)間2025年5月14日凌晨1點(diǎn)（美國(guó)太平洋時(shí)間5月13日10點(diǎn)）推出《The Android Show：I/O Edition》特別直播活動(dòng)，由Android…

Google
4天前
新聞

昆侖萬(wàn)維豪賭AI致巨虧16億，投資者買(mǎi)單？

4月25日，昆侖萬(wàn)維（300418.SZ）交出一份令市場(chǎng)嘩然的成績(jī)單：2024年?營(yíng)業(yè)總收入56.6億元，同比增長(zhǎng)15.2%?，但歸母凈利潤(rùn)卻巨虧?15.95億元?，同比暴跌226…

聆聽(tīng)
5天前
新聞

英偉達(dá)GTC大會(huì)首度登陸臺(tái)北國(guó)際電腦展，AI技術(shù)盛宴即將開(kāi)幕

英偉達(dá)官網(wǎng)最新信息顯示，其年度技術(shù)盛會(huì)?GTC Taipei 2025?將于5月21日至22日在臺(tái)北漢來(lái)大飯店舉行，同期配套的實(shí)作坊活動(dòng)則從5月20日持續(xù)至22日。這是英偉達(dá)首次將…

野游栗
5天前
商業(yè)

消息稱(chēng)谷歌母公司一季度因SpaceX“躺賺”80億美元

據(jù)知情人士向媒體透露，谷歌母公司Alphabet今年第一季度財(cái)報(bào)中高達(dá)80億美元的未實(shí)現(xiàn)收益，源自對(duì)埃隆·馬斯克旗下太空探索技術(shù)公司（SpaceX）的股權(quán)投資。這一隱藏收益成為其季…

商業(yè)頭條
5天前
新聞

谷歌安卓16 Beta 4上線雙擊熄屏功能 Pixel用戶現(xiàn)可鎖屏快速關(guān)屏

谷歌在4月27日推送的安卓16 Beta 4更新中，為Pixel全系手機(jī)新增鎖屏界面雙擊熄屏功能。用戶無(wú)需喚醒設(shè)備，雙擊屏幕任意區(qū)域即可立即關(guān)閉顯示，該特性已向參與測(cè)試計(jì)劃的Pix…

Google
6天前
新聞

Google谷歌將于10月25日停止對(duì)早期Nest恒溫器的支持

谷歌Google本周宣布，從 10 月 25 日起，它將不再為第一代和第二代 Nest Learning Thermostats（Nest 學(xué)習(xí)型恒溫器）提供支持，也不會(huì)再發(fā)布相關(guān)…

科技探索者
6天前
新聞

AI智能體公司完成7500萬(wàn)美元融資，估值四個(gè)月暴漲四倍

彭博社報(bào)道稱(chēng)，中國(guó)通用型AI智能體開(kāi)發(fā)商蝴蝶效應(yīng)（Butterfly Effect）近期完成7500萬(wàn)美元（約合5.47億元人民幣）融資，由美國(guó)頂級(jí)風(fēng)投Benchmark領(lǐng)投，現(xiàn)有…

商業(yè)頭條
2025年4月25日
新聞

?傳媒巨頭Ziff Davis起訴OpenAI：指控非法抓取數(shù)百萬(wàn)文章訓(xùn)練AI

據(jù)外媒報(bào)道稱(chēng)，美國(guó)數(shù)字媒體集團(tuán)Ziff Davis正式向紐約聯(lián)邦法院提起訴訟，指控人工智能公司OpenAI在未經(jīng)授權(quán)的情況下，“系統(tǒng)性復(fù)制”其旗下包括CNET、PCMag等45個(gè)媒…

小丸子
2025年4月25日
出海

沃爾瑪發(fā)布AI工具，顛覆服裝業(yè)

沃爾瑪正式宣布其自主研發(fā)的生成式AI工具“Trend-to-Product”全面應(yīng)用于服裝開(kāi)發(fā)，該工具通過(guò)分析社交媒體、電商平臺(tái)等渠道的實(shí)時(shí)數(shù)據(jù)，將傳統(tǒng)服裝開(kāi)發(fā)周期從18周縮短至6…

AI
2025年4月25日
商業(yè)

谷歌母公司Alphabet一季度營(yíng)收突破900億美元大關(guān) 凈利潤(rùn)激增46%

北京時(shí)間4月25日，谷歌母公司Alphabet發(fā)布2025財(cái)年首季財(cái)報(bào)，多項(xiàng)核心指標(biāo)超越市場(chǎng)預(yù)期。數(shù)據(jù)顯示，公司季度營(yíng)收達(dá)902.34億美元，同比增長(zhǎng)12%（匯率調(diào)整后增長(zhǎng)14%）…

Google
2025年4月25日
新聞

?微軟Microsoft 365 Copilot免費(fèi)用戶5月將迎重大更新：導(dǎo)航界面全面改版

據(jù)外媒披露，微軟計(jì)劃自5月中旬起向所有Microsoft 365 Copilot Chat用戶（無(wú)需付費(fèi)訂閱許可證）推送“Wave 2春季更新”。此次升級(jí)重點(diǎn)優(yōu)化導(dǎo)航與交互邏輯，旨…

Microsoft
2025年4月24日
AI

?Gemini用戶半年激增3倍谷歌AI月活破3.5億緊追ChatGPT

根據(jù)谷歌反壟斷訴訟中最新披露的內(nèi)部數(shù)據(jù)，其人工智能聊天機(jī)器人Gemini全球月活躍用戶數(shù)（MAU）在今年3月達(dá)到3.5億，較六個(gè)月前增長(zhǎng)近3倍。這是谷歌首次公開(kāi)該產(chǎn)品的用戶增長(zhǎng)軌跡…

Google
2025年4月24日
AI

OpenAI計(jì)劃開(kāi)源首款A(yù)I模型推理性能對(duì)標(biāo)Meta、谷歌

近日，OpenAI正式確認(rèn)將推出自2019年GPT-2以來(lái)的首個(gè)開(kāi)源語(yǔ)言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導(dǎo)開(kāi)發(fā)，計(jì)劃于今年夏季初發(fā)布，其核心目標(biāo)是在…

AI
2025年4月24日
AI

英偉達(dá)發(fā)布Eagle 2.5視覺(jué)語(yǔ)言模型：8B參數(shù)單挑GPT-4o

英偉達(dá)于近日發(fā)布全新視覺(jué)語(yǔ)言模型Eagle 2.5，這款僅8B參數(shù)的AI在長(zhǎng)視頻理解領(lǐng)域?qū)崿F(xiàn)突破。該模型在Video-MME基準(zhǔn)測(cè)試（512幀輸入）中斬獲72.4%準(zhǔn)確率，性能直指…

AI
2025年4月23日
手機(jī)

因高額關(guān)稅谷歌Pixel越南產(chǎn)線考慮遷移至印度

面對(duì)美國(guó)持續(xù)加碼的關(guān)稅壓力，谷歌正啟動(dòng)智能手機(jī)制造版圖調(diào)整。據(jù)印度《經(jīng)濟(jì)時(shí)報(bào)》披露，該公司計(jì)劃將Pixel手機(jī)生產(chǎn)基地從越南遷往印度，目前正與富士康、迪克森科技等代工企業(yè)磋商生產(chǎn)線…

Google
2025年4月23日
產(chǎn)品

OpenAI或?qū)⑹召?gòu)谷歌Chrome 反壟斷案庭審曝重磅合作內(nèi)幕?

4月23日，美國(guó)司法部針對(duì)谷歌的反壟斷案庭審曝出驚人消息：OpenAI高管出庭作證稱(chēng)，該公司曾試圖與谷歌達(dá)成搜索技術(shù)合作但遭拒絕，而司法部正推動(dòng)強(qiáng)制拆分谷歌Chrome瀏覽器及數(shù)字…

科技探索者
2025年4月23日
AI

OpenAI o3及o4-mini模型被曝植入“隱形水印”：AI生成文本暗藏特殊符號(hào)

AI初創(chuàng)公司Rumi近日發(fā)布報(bào)告稱(chēng)，OpenAI最新發(fā)布的o3及o4-mini模型中，其生成的文本內(nèi)嵌入了特殊Unicode字符“窄不換行空格”（NNBSP，U+202F），疑似用…

AI
2025年4月22日