零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

2024年,大模型領(lǐng)域的一個趨勢越來越清晰:重視優(yōu)化,面向應(yīng)用。

在去年的百模大戰(zhàn)中,科技巨頭、創(chuàng)業(yè)力量你追我趕,將大模型技術(shù)卷到了一個新的高度。有了強(qiáng)大的模型之后,更重要的是將這些能力輸出到現(xiàn)實(shí)中的應(yīng)用場景,提升用戶體驗(yàn)、構(gòu)建生態(tài)。

正因此,大模型廠商們或是開源,或是推出模型 API,都是希望讓成果為開發(fā)者所用,以此為基礎(chǔ)設(shè)施構(gòu)建起繁榮的大模型生態(tài)

國內(nèi)的大模型獨(dú)角獸公司零一萬物,也在今天正式發(fā)布了 Yi 大模型 API 開放平臺。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

零一萬物 API 開放平臺

此次 API 開放平臺提供以下模型:

Yi-34B-Chat-0205:支持通用聊天、問答、對話、寫作、翻譯等功能。

Yi-34B-Chat-200K:200K 上下文,多文檔閱讀理解、超長知識庫構(gòu)建小能手。

Yi-VL-Plus: 多模態(tài)模型,支持文本、視覺多模態(tài)輸入,中文圖表體驗(yàn)超過 GPT-4V。

實(shí)際上,在半個月前,零一萬物已經(jīng)啟動了 Yi-34B-Chat-0205和 Yi-34B-Chat-200K 兩個模型的邀測,很多開發(fā)者早就上手體驗(yàn)過一波了。

我們圍觀了一下,發(fā)現(xiàn)了幾個亮點(diǎn):

首先,200K 上下文確實(shí)強(qiáng)。就拿專業(yè)書翻譯這件事來說吧,前 HuggingFace 員工、Transformer 核心貢獻(xiàn)者 Stas Bekman 寫過一本名為《機(jī)器學(xué)習(xí)工程》的電子書。調(diào)用 Yi-34B-Chat-200K 之后,知乎知名技術(shù)作者「蘇洋」一天之內(nèi)就完成了長達(dá)264頁的書籍翻譯工作。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了
零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

圖源:使用零一萬物200K 模型和 Dify 快速搭建模型應(yīng)用

其次,在 Yi-34B-Chat-0205、Yi-34B-Chat-200K 之外,零一萬物開放平臺此次同期上新全新的多模態(tài)大模型 Yi-VL-Plus。

Yi-VL-Plus 支持文本、視覺多模態(tài)輸入,面向?qū)嶋H場景大幅增強(qiáng)。多位用戶反饋:「中文體驗(yàn)超過 GPT-4V?!?/p>

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

GPT-4V 連招牌都沒看明白。

此外,零一萬物 Yi 大模型 API 開放平臺和 OpenAI API 是兼容的,遷移方案時的體驗(yàn)應(yīng)該也非常絲滑。

當(dāng)然,Yi 大模型 API 到底能不能與 GPT-4Turbo、Gemini1.5、Claude3這些模型的表現(xiàn)一較高下,還需要更多開發(fā)者一起考察。

Yi 大模型 API 名額目前限量開放,零一萬物會為新用戶免費(fèi)贈送60元,感興趣的開發(fā)者不妨申請體驗(yàn)一下。

200K上下文的大模型,有多能打?

在此前的內(nèi)測中,最令人印象深刻的不外乎具有超長上下文窗口的 Yi-34B-Chat-200K。

對于大模型的落地應(yīng)用,上下文窗口是一項(xiàng)非常關(guān)鍵的因素。過去一年里,各家大模型的上下文窗口都在飛速擴(kuò)展:OpenAI 把 GPT-4的32K 直接提到 GPT-4Turbo 的128K。谷歌的 Gemini1.0還是32K,Gemini1.5Pro 馬上就升級到了100萬 Token。

前不久,Claude3將大模型 API 的上下文長度紀(jì)錄一下提到了200K,還宣稱有能力開放100萬 Token 的上下文輸入(盡管目前僅限特定客戶)。

要完成更復(fù)雜的現(xiàn)實(shí)任務(wù),模型需要能夠處理長篇的上下文。更廣闊的上下文窗口能顯著提升模型的理解深度,在生成內(nèi)容或解答問題時實(shí)現(xiàn)更高的準(zhǔn)確性和相關(guān)性。這是因?yàn)槟P湍軌颉富貞洝共⒄蛰^長的文本歷史,面對長文章、書籍的章節(jié)、復(fù)雜對話或其他需長期累積上下文的情境時,這種能力格外關(guān)鍵。

Yi-34B-Chat-200K 能夠處理大約30萬個中英文字符。我們可以拿文學(xué)類書籍來類比,32K 就像是一篇2萬字的短篇小說(比如《潛伏》原著),128K 大概是一部中篇小說的體量(比如《人間失格》),而200K 則相當(dāng)于《呼嘯山莊》、《百年孤獨(dú)》、《駱駝祥子》這類長篇著作了。

以下是 Yi-34B-Chat-200K 對經(jīng)典文學(xué)作品《呼嘯山莊》的歸納總結(jié),這部作品中文字?jǐn)?shù)約30萬字,人物關(guān)系錯綜復(fù)雜,但 Yi-34B-Chat-200K 仍能精準(zhǔn)地梳理和總結(jié)出人物之間的關(guān)系。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

從行業(yè)應(yīng)用的角度看,Yi-34B-Chat-200K 適合用于多篇文檔內(nèi)容理解、海量數(shù)據(jù)分析挖掘和跨領(lǐng)域知識融合等,為各行各業(yè)應(yīng)用提供了便利。金融分析師可以用它快速閱讀報告并預(yù)測市場趨勢、律師可以用它精準(zhǔn)解讀法律條文、科研人員可以用它高效提取論文要點(diǎn)等,應(yīng)用場景非常廣泛。

有開發(fā)者對比了 Yi-34B-Chat-200K 和某同類模型,從下圖我們能看出,對于「請在18萬字報告中找到地緣政治風(fēng)險」這一 Prompt,Yi-34B-Chat-200K 給出了正確答案「英國脫歐導(dǎo)致索尼總部搬遷,導(dǎo)致索尼歐洲業(yè)務(wù)連續(xù)性受影響」,而另外一個模型則表示「無地緣政治風(fēng)險」,未能完成任務(wù)。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

在另一項(xiàng)任務(wù)中,開發(fā)者要求某個大模型幫忙「撰寫文獻(xiàn)綜述」,結(jié)果,交上來的活只干了一半:

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

切換到 Yi-34B-Chat-200K 之后,剛才卡住的任務(wù)馬上成功執(zhí)行,篇幅控制、翻譯準(zhǔn)確度、標(biāo)注格式都符合要求。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

實(shí)驗(yàn)數(shù)據(jù)進(jìn)一步印證了開發(fā)者內(nèi)測過程中的直觀感受:在零一萬物針對其進(jìn)行的「大海撈針」測試中,Yi-34B-Chat-200K 的性能提高了10.5%,從89.3% 提升到99.8%。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

拼中文體驗(yàn),這次贏的顯然是Yi-VL-Plus

大語言模型的持續(xù)進(jìn)步往往也會為多模態(tài)大模型注入新的發(fā)展生機(jī),尤其近幾個月以來,多模態(tài)領(lǐng)域迎來「井噴」,大家的目光再次聚焦到了多模態(tài)大模型的發(fā)展上來。

谷歌 Gemini 原生多模態(tài)、Anthropic Claude3首 次支持多模態(tài)能力,隨之而來的是,多模態(tài)大模型對圖像(包括其上文字)、表格、圖表、公式的識別、理解能力已經(jīng)在整體上了一個新臺階。自然而然,這對其他大模型廠商提出了更高的多模態(tài)能力需求。

對于零一萬物來說,這既是挑戰(zhàn),也是機(jī)遇。自成立以來,零一萬物在大模型多模態(tài)能力上的探索一直在推進(jìn),尤其中文場景表現(xiàn)亮眼。

1月22日,零一萬物 Yi-VL 多模態(tài)語言大模型正式開源,包括 Yi-VL-34B 和 Yi-VL-6B 兩個版本,其中34B 版本在針對中文打造的 CMMMU 數(shù)據(jù)集上的準(zhǔn)確率緊隨 GPT-4V 之后,在開源多模態(tài)模型中處于領(lǐng)先位置。

現(xiàn)在,Yi-VL-Plus 多模態(tài)模型在原有 Yi-VL 基礎(chǔ)上迎來全方位升級,進(jìn)一步提高了圖片分辨率,支持1024*1024分辨率輸入,不僅對圖片中文字、符號的識別、理解和概括能力得到前所未有的加強(qiáng),在部分中文場景的實(shí)際體驗(yàn)更是超越了 GPT-4V。眼見為實(shí),我們來詳細(xì)對比一下開篇提到的這個圖文對話示例。

可以看到,Yi-VL-Plus 的回答言簡意賅,準(zhǔn)確無誤,驗(yàn)證了它對圖片中文字超強(qiáng)的識別能力;而 GPT-4V 看似回答了一大堆內(nèi)容,實(shí)則廢話連篇,除了「羊肉湯燴面」這個招牌之外,它給出的食物顯然是基于一般常識推理出來的,并不是它準(zhǔn)確看到的。二者高下立判。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

在更準(zhǔn)確地搞定一般中文場景的圖片識別之外,此次 Yi-VL-Plus 的一大特點(diǎn)是大幅增強(qiáng)了對實(shí)際生產(chǎn)力場景的支持,既提高了圖表(Charts)、表格(Table)、信息圖表(Inforgraphics)、屏幕截圖(Screenshot)中文字和數(shù)字 OCR 的識別準(zhǔn)確性,讓模型「看得準(zhǔn)」;又支持了復(fù)雜的圖表理解、信息提取、問答以及推理,讓模型「答得透」。

我們同樣發(fā)現(xiàn),在這些偏生產(chǎn)力場景的任務(wù)中, Yi-VL-Plus 的實(shí)際體驗(yàn)依然要比 GPT-4V 更好。

我們來看下面這個中文「財務(wù)報表數(shù)據(jù)提取」任務(wù),Yi-VL-Plus 沒有被不同部門的數(shù)據(jù)所迷惑,精確無誤定位并提取到了銷售部門各個季度的數(shù)據(jù);而 GPT-4V 顯然被復(fù)雜的表格和柱狀圖數(shù)據(jù)難倒了,給出的數(shù)據(jù)中出現(xiàn)多達(dá)三處錯誤。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

在另外一個中文「圖表理解場景」中,Yi-VL-Plus(左)在準(zhǔn)確性方面同樣擊敗了 GPT-4V(右),后者混淆了電商零售與本地生活服務(wù)的概念。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

論「火眼金睛」,Yi-VL-Plus還是更強(qiáng)一點(diǎn)的。

當(dāng)然,不止中文場景,Yi-VL-Plus 也能輕松處理英文「圖表信息提取」任務(wù),在答案準(zhǔn)確性方面依然要強(qiáng)于 GPT-4V。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

到了「臨門一腳」,GPT-4V還是出錯了。

在充分把握圖表信息的基礎(chǔ)上,Yi-VL-Plus 還能釋放其他多模態(tài)能力,比如將圖表轉(zhuǎn)化為其他格式,詮釋了「技多不壓身」。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

而在下面涉及專業(yè)知識學(xué)習(xí)與解讀的案例中,Yi-VL-Plus 同樣能給出有模有樣的專業(yè)回答??梢钥吹?,Yi-VL-Plus 能夠結(jié)合歷史病歷和圖片信息(脫敏數(shù)據(jù)),較好地完成對青少年心理健康水平解讀。

零一萬物API正式上線:支持輸入30萬漢字,看不懂《百年孤獨(dú)》的人有救了

至此,我們大可以得出這樣的結(jié)論:中文社區(qū)終于迎來了一個性能強(qiáng)大的多模態(tài)大模型。尤其是對于普通用戶而言,在生產(chǎn)力場景下足功夫的 Yi-VL-Plus 能夠成為他們分析圖表、分類知識、匯總數(shù)據(jù)的絕 佳輔助工具,對工作效率的提升顯而易見。

寫在最后

當(dāng)今,大模型廠商想要在激烈的競爭中勝出,靠的不再只是炫「冷冰冰」的榜單數(shù)據(jù),還要不斷降低模型使用門檻,為用戶「減負(fù)」。自然而然,開放 API 成為了很多廠商的選擇。

從成立至今,零一萬物一方面堅持向公眾開源 Yi 系列模型,為開源社區(qū)貢獻(xiàn)自己的技術(shù)力量;另一方面又希望通過開放 API 讓包括開發(fā)者在內(nèi)的更多人用上強(qiáng)大的對話、多模態(tài)大模型,或用來創(chuàng)作或用于工作,這樣反過來又將促進(jìn)這些模型在更多應(yīng)用場景中的落地,形成雙贏局面。

此前,零一萬物 CEO 李開復(fù)博士曾表示,零一萬物將在 Yi 系列大模型的基礎(chǔ)上打造更多 To C 超 級應(yīng)用。此次在開放對話、多模態(tài)模型 API 的同時,還強(qiáng)調(diào)了開發(fā)者工具對促進(jìn)大模型應(yīng)用創(chuàng)新的作用,雙管齊下,為實(shí)現(xiàn)這一目標(biāo)做好了充足的準(zhǔn)備。

零一萬物表示,近期將為開發(fā)者提供更多更強(qiáng)模型和 AI 開發(fā)框架。主要亮點(diǎn)包括:

– 推出一系列的模型 API,覆蓋更大的參數(shù)量、更強(qiáng)的多模態(tài),更專業(yè)的代碼/數(shù)學(xué)推理模型等。

– 突破更長的上下文,目標(biāo)100萬 tokens;支持更快的推理速度,顯著降低推理成本。

– 基于超長上下文能力,構(gòu)建向量數(shù)據(jù)庫、RAG、Agent 架構(gòu)在內(nèi)的全新開發(fā)者 AI 框架。旨在提供更加豐富和靈活的開發(fā)工具,以適應(yīng)多樣化的應(yīng)用場景。

顯然,零一萬物在自家大模型的發(fā)展方向上已經(jīng)有了成熟的思路,未來也勢必會走得更遠(yuǎn)。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/636964.html

陳晨陳晨管理團(tuán)隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論