蘋果開發(fā)出新款AI:能“看懂”屏幕上內(nèi)容并用語音回復

蘋果開發(fā)出新款AI:能“看懂”屏幕上內(nèi)容并用語音回復

4月2日消息,蘋果公司的研究團隊最近發(fā)表了一篇論文,宣布他們成功開發(fā)出了一款創(chuàng)新的人工智能系統(tǒng)。這個系統(tǒng)能夠準確地理解屏幕上模糊的內(nèi)容及其相關對話和背景環(huán)境,進而實現(xiàn)與語音助手更加自然的互動。

蘋果開發(fā)出新款AI:能“看懂”屏幕上內(nèi)容并用語音回復

這個系統(tǒng)被命名為ReALM(Reference Resolution As Language Modeling,即以語言建模為基礎的參考解析),它通過大語言模型的運用,將理解屏幕視覺元素指向的復雜任務轉(zhuǎn)化為一個純粹的語言問題。這一轉(zhuǎn)換使得ReALM在性能上相較于現(xiàn)有技術(shù)有了顯著的提升。

蘋果研究團隊強調(diào):“讓對話助手能夠理解上下文,包括相關的內(nèi)容指向,非常關鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進行提問,是確保真正實現(xiàn)語音操作體驗的重要一步。”

增強對話助手的能力

ReALM的一大創(chuàng)新在于它能夠重新構(gòu)建屏幕內(nèi)容,即通過分析屏幕上的信息及其位置信息來生成文本表示,這一點對捕捉視覺布局至關重要。研究人員展示了這種方法與專為內(nèi)容指向調(diào)整的語言模型結(jié)合起來,能在執(zhí)行相關任務時超越GPT-4的性能。

研究人員表示:“我們對現(xiàn)有系統(tǒng)進行了顯著改進,在處理多種類型的內(nèi)容指向時均展現(xiàn)出卓越性能。我們的最小模型就實現(xiàn)了超過5%的性能提升,而大型模型的表現(xiàn)則明顯超過了GPT-4?!?/p>

實際應用與局限性

這項研究凸顯了專注于語言模型在處理如內(nèi)容指向解析等任務上的巨大潛力。由于響應時間或計算資源的限制,大型端到端模型往往難以實施。通過這項創(chuàng)新性研究,蘋果展現(xiàn)了其持續(xù)投入,使Siri等產(chǎn)品在對話和理解上下文方面更加出色。

盡管如此,研究人員也指出,依靠自動化解析屏幕內(nèi)容仍然面臨挑戰(zhàn)。在處理更復雜的視覺內(nèi)容,比如區(qū)分多個相似圖像時,可能需要結(jié)合計算機視覺和多模態(tài)技術(shù)。

努力縮小與AI競爭對手差距

雖然在人工智能領域蘋果曾稍顯落后,但它正在默默取得顯著進展。從融合視覺與語言的多模態(tài)模型,到開發(fā)AI驅(qū)動的動畫工具,再到構(gòu)建高性能的專業(yè)AI技術(shù),蘋果的研究實驗室持續(xù)實現(xiàn)技術(shù)突破。

面對谷歌、微軟、亞馬遜和OpenAI等公司的激烈競爭——這些公司已在搜索、辦公軟件、云服務等領域推出了先進的AI產(chǎn)品——作為一個以保密聞名的科技巨頭,蘋果正努力不落人后。

長期以來,蘋果更多在創(chuàng)新領域扮演跟隨者而不是領先者的角色,現(xiàn)在正面臨著一個由人工智能快速改變的市場。在6月舉辦的全球開發(fā)者大會上,蘋果預計將推出新的大語言模型框架、“AppleGPT”聊天機器人及其生態(tài)系統(tǒng)中的其他AI功能。

“我們很高興今年晚些時候分享我們在人工智能方面的工作進展,”首席執(zhí)行官蒂姆·庫克(TimCook)最近在一次盈利電話會議上暗示。盡管蘋果向來低調(diào),但其在AI領域的廣泛努力已經(jīng)引起了業(yè)界的廣泛關注。

然而,在日益激烈的人工智能領域競爭中,蘋果的相對滯后使其處于不利地位。但憑借其雄厚的資金實力、品牌忠誠度、一流的工程師團隊和緊密整合的產(chǎn)品線,蘋果仍有機會扭轉(zhuǎn)局面。

本文轉(zhuǎn)載自:cnBeta,不代表科技訊之立場。原文鏈接:https://www.cnbeta.com.tw/articles/tech/1425875.htm

野游栗的頭像野游栗認證作者

相關推薦

發(fā)表回復

登錄后才能評論