DeepSeek推出NSA:超快速長(zhǎng)上下文訓(xùn)練與推理的新利器

DeepSeek推出NSA:超快速長(zhǎng)上下文訓(xùn)練與推理的新利器

今日,人工智能領(lǐng)域的創(chuàng)新企業(yè)DeepSeek宣布正式推出NSA(Native Sparse Attention)機(jī)制。這一機(jī)制專為超快速長(zhǎng)上下文訓(xùn)練與推理而設(shè)計(jì),旨在通過(guò)硬件對(duì)齊和原生可訓(xùn)練的稀疏注意力機(jī)制,為用戶帶來(lái)前所未有的體驗(yàn)。

NSA的核心組件包括動(dòng)態(tài)分層稀疏策略、粗粒度token壓縮以及細(xì)粒度token選擇。這些組件共同協(xié)作,使得NSA能夠在優(yōu)化現(xiàn)代硬件設(shè)計(jì)的同時(shí),實(shí)現(xiàn)推理加速和預(yù)訓(xùn)練成本的降低,而且這一切都是在不犧牲性能的前提下完成的。

DeepSeek官方表示,NSA機(jī)制在通用基準(zhǔn)、長(zhǎng)上下文任務(wù)和基于指令的推理上,其表現(xiàn)與全注意力模型相當(dāng)甚至更加優(yōu)秀。這意味著,用戶在享受更快推理速度和更低成本的同時(shí),也能獲得與頂尖模型相媲美的性能表現(xiàn)。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/706746.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論