阿里云通義千問(wèn)發(fā)布全新Qwen2系列AI模型:性能大幅提升,支持128K tokens長(zhǎng)上下文

阿里云通義千問(wèn)發(fā)布全新Qwen2系列AI模型:性能大幅提升,支持128K tokens長(zhǎng)上下文

今日,阿里云通義千問(wèn)(Qwen)宣布,經(jīng)過(guò)數(shù)月的持續(xù)研發(fā)和優(yōu)化,其AI開源模型系列已升級(jí)至Qwen2,并在Hugging Face和ModelScope上同步開源。此次升級(jí)不僅引入了五個(gè)尺寸的預(yù)訓(xùn)練和指令微調(diào)模型,還在多項(xiàng)性能上實(shí)現(xiàn)了顯著提升,包括代碼和數(shù)學(xué)能力的增強(qiáng),以及對(duì)更長(zhǎng)上下文長(zhǎng)度的支持。

Qwen2系列包括五個(gè)不同尺寸的模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B,這些模型在參數(shù)量、非Embedding參數(shù)量以及上下文長(zhǎng)度上均有所不同,以滿足不同場(chǎng)景下的需求。特別值得一提的是,Qwen2-72B-Instruct模型的上下文長(zhǎng)度支持最高達(dá)到了128K tokens,為用戶提供了更加廣闊的文本處理空間。

在訓(xùn)練數(shù)據(jù)方面,Qwen2系列在中文和英語(yǔ)的基礎(chǔ)上,增加了27種語(yǔ)言相關(guān)的高質(zhì)量數(shù)據(jù),從而大幅提升了模型的多語(yǔ)言能力。同時(shí),所有尺寸的模型都采用了GQA(Gradient-based Quantization Aware Training)技術(shù),該技術(shù)能夠顯著加速推理過(guò)程并降低顯存占用,為用戶提供更加高效和穩(wěn)定的模型使用體驗(yàn)。

在模型評(píng)測(cè)方面,Qwen2系列在大規(guī)模模型上實(shí)現(xiàn)了非常大幅度的效果提升。尤其是Qwen2-72B模型,在包括自然語(yǔ)言理解、知識(shí)、代碼、數(shù)學(xué)及多語(yǔ)言等多項(xiàng)能力上均顯著超越當(dāng)前領(lǐng)先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。這一成果充分展示了Qwen2系列在AI模型研發(fā)領(lǐng)域的領(lǐng)先地位和強(qiáng)大實(shí)力。

阿里云通義千問(wèn)作為阿里云旗下的AI開源項(xiàng)目,一直致力于推動(dòng)AI技術(shù)的創(chuàng)新和發(fā)展。此次Qwen2系列的發(fā)布,不僅為用戶提供了更加先進(jìn)和高效的AI模型,也進(jìn)一步彰顯了阿里云在AI領(lǐng)域的技術(shù)實(shí)力和創(chuàng)新能力。未來(lái),我們期待通義千問(wèn)能夠繼續(xù)推出更多優(yōu)秀的AI模型和技術(shù),為AI領(lǐng)域的發(fā)展貢獻(xiàn)更多的力量。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/659662.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論