阿里云通義千問(wèn)多模態(tài)大模型Qwen-VL-Max重磅升級(jí)

阿里云通義千問(wèn)多模態(tài)大模型Qwen-VL-Max重磅升級(jí)

阿里云昨日公布了其多模態(tài)大模型研究的新進(jìn)展,推出了升級(jí)版的通義千問(wèn)視覺(jué)理解模型Qwen-VL-Max。這款模型在視覺(jué)推理能力和中文理解能力上都有了顯著提升,性能表現(xiàn)堪比GPT-4V和谷歌的Gemini Ultra。

Qwen-VL-Max的升級(jí)主要表現(xiàn)在以下幾個(gè)方面:

  1. 基礎(chǔ)能力:Qwen-VL-Max能夠準(zhǔn)確描述和識(shí)別圖片信息,并基于圖片進(jìn)行信息推理和擴(kuò)展創(chuàng)作。它還具備了視覺(jué)定位能力,能夠?qū)Ξ?huà)面指定區(qū)域進(jìn)行問(wèn)答。
  2. 視覺(jué)推理:新版模型能夠理解流程圖等復(fù)雜形式圖片,并能夠分析復(fù)雜圖標(biāo)。此外,它在看圖做題、看圖作文以及看圖寫(xiě)代碼等任務(wù)上也達(dá)到了世界最佳水平。
  3. 圖像文本處理:Qwen-VL-Max的中英文文本識(shí)別能力顯著提高,支持百萬(wàn)像素以上的高清分辨率圖和極端寬高比的圖像。它既能夠完整復(fù)現(xiàn)密集文本,也能從表格和文檔中提取信息。

與LLM(大語(yǔ)言模型)相比,多模態(tài)大模型擁有更大的應(yīng)用想象力。例如,研究者正在探索將多模態(tài)大模型與自動(dòng)駕駛場(chǎng)景結(jié)合,為“完全自動(dòng)駕駛”找到新的技術(shù)路徑。此外,將多模態(tài)模型部署到手機(jī)、機(jī)器人、智能音箱等端側(cè)設(shè)備,可以讓智能設(shè)備自動(dòng)理解物理世界的信息,或者基于多模態(tài)模型開(kāi)發(fā)應(yīng)用,輔助視力障礙群體的日常生活等等。

Qwen-VL-Plus和Qwen-VL-Max目前限時(shí)免費(fèi),用戶(hù)可以在通義千問(wèn)官網(wǎng)、通義千問(wèn)APP直接體驗(yàn)Max版本模型的能力,也可以通過(guò)阿里云靈積平臺(tái)(DashScope)調(diào)用模型API。

總的來(lái)說(shuō),阿里云的通義千問(wèn)多模態(tài)大模型Qwen-VL-Max在視覺(jué)推理和中文理解方面都展現(xiàn)出了強(qiáng)大的實(shí)力,其性能表現(xiàn)足以與GPT-4V和谷歌的Gemini Ultra相媲美。這將為用戶(hù)提供更豐富、更準(zhǔn)確的視覺(jué)信息理解和創(chuàng)作能力,推動(dòng)AI技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。

原創(chuàng)文章,作者:若安丶,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/624926.html

若安丶的頭像若安丶管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論