騰訊混元文生圖開(kāi)源模型推出小顯存版本,僅需6G顯存即可運(yùn)行

7月4日,騰訊混元文生圖大模型(混元DiT)宣布開(kāi)源小顯存版本,僅需6G顯存即可運(yùn)行,對(duì)使用個(gè)人電腦本地部署的開(kāi)發(fā)者十分友好,該版本與LoRA、ControlNet等插件,都已適配至Diffusers庫(kù);并新增對(duì)Kohya圖形化界面的支持,讓開(kāi)發(fā)者可以低門(mén)檻地訓(xùn)練個(gè)性化LoRA模型;同時(shí),混元DiT模型升級(jí)至1.2版本,在圖片質(zhì)感與構(gòu)圖方面均有所提升。

此外,騰訊宣布混元文生圖打標(biāo)模型”混元Captioner“正式對(duì)外開(kāi)源。該模型支持中英文雙語(yǔ),針對(duì)文生圖場(chǎng)景進(jìn)行專(zhuān)門(mén)優(yōu)化,可幫助開(kāi)發(fā)者快速制作高質(zhì)量的文生圖數(shù)據(jù)集。

相比起業(yè)界的開(kāi)源打標(biāo)模型,混元Captioner模型能更好的理解與表達(dá)中文語(yǔ)義,輸出的圖片描述更為結(jié)構(gòu)化、完整和準(zhǔn)確,并能精準(zhǔn)識(shí)別出常見(jiàn)知名人物與地標(biāo)。模型還支持開(kāi)發(fā)者自行補(bǔ)充和導(dǎo)入個(gè)性化的背景知識(shí)。

混元Captioner模型開(kāi)源之后,全球的文生圖研究者、數(shù)據(jù)標(biāo)注人員,均可使用混元Captioner高效地提升自身圖像描述質(zhì)量,生成更全面、更準(zhǔn)確的圖片描述,提升模型效果?;煸狢aptioner生成的數(shù)據(jù)集不僅能用于訓(xùn)練基于混元DiT的模型,亦可用于其他視覺(jué)模型訓(xùn)練。

模型易用性再提升,個(gè)人電腦可輕松運(yùn)行

騰訊混元DiT模型宣布了三大更新:推出小顯存版本與Kohya訓(xùn)練界面,并升級(jí)至1.2版本,進(jìn)一步降低使用門(mén)檻的同時(shí)提升圖片質(zhì)量。

基于DiT架構(gòu)的文生圖模型生成圖片質(zhì)感更佳,但對(duì)顯存的要求卻非常高,讓許多開(kāi)發(fā)者望而卻步。這也是新版本Stable Diffusion模型無(wú)法快速普及的原因之一。

應(yīng)廣大開(kāi)發(fā)者的需求,混元DiT推出小顯存版本,最低僅需6G顯存即可運(yùn)行優(yōu)化推理框架,對(duì)使用個(gè)人電腦本地部署的開(kāi)發(fā)者非常友好。經(jīng)過(guò)與Hugging Face合作,小顯存版本、LoRA與ControlNet插件,都已經(jīng)適配到Diffusers庫(kù)中。開(kāi)發(fā)者無(wú)需下載原始代碼,僅用簡(jiǎn)單的三行代碼僅可調(diào)用,大大簡(jiǎn)化了使用成本。

同時(shí),混元DiT宣布接入Kohya,讓開(kāi)發(fā)者可以低門(mén)檻地訓(xùn)練專(zhuān)屬LoRA模型。

Kohya是一個(gè)開(kāi)源的、輕量化模型微調(diào)訓(xùn)練服務(wù),提供了圖形化的用戶界面,被廣泛用于擴(kuò)散模型類(lèi)文生圖模型的訓(xùn)練。用戶可以通過(guò)圖形化界面,完成模型的全參精調(diào)及LoRA訓(xùn)練,無(wú)需涉及到代碼層面的細(xì)節(jié)。訓(xùn)練好的模型符合Kohya生態(tài)架構(gòu),可以低成本與 WebUI 等推理界面結(jié)合,實(shí)現(xiàn)一整套“訓(xùn)練-生圖”工作流。

面向文生圖、支持中英文,提升數(shù)據(jù)質(zhì)量

在提升模型易用性的同時(shí),騰訊混元團(tuán)隊(duì)也在開(kāi)放更多的關(guān)鍵技術(shù),包括此前的訓(xùn)練代碼,最新的打標(biāo)模型混元Captioner。

數(shù)據(jù)集就像AI訓(xùn)練的教材。訓(xùn)練數(shù)據(jù)集的質(zhì)量,影響著模型生成內(nèi)容的效果。因此,文生圖開(kāi)發(fā)者往往需要對(duì)原始圖片進(jìn)行清晰、全面的標(biāo)注,制作高質(zhì)量的數(shù)據(jù)集,才能訓(xùn)練出來(lái)一個(gè)語(yǔ)義理解準(zhǔn)確、繪畫(huà)技藝高超的文生圖大模型。

借助打標(biāo)模型,開(kāi)發(fā)者可以快速生成高質(zhì)量數(shù)據(jù)集。具體來(lái)說(shuō),文生圖開(kāi)發(fā)者將原始圖片集導(dǎo)入混元Captioner,后者將生成高質(zhì)量標(biāo)注;也可以導(dǎo)入圖片與原始描述,利用混元Captioner過(guò)濾其中的無(wú)關(guān)信息,并完善和優(yōu)化圖片描述,以提高數(shù)據(jù)質(zhì)量。

目前,業(yè)界對(duì)于圖片描述文本的生成,主要使用通用多模態(tài)Captioner模型,存在描述過(guò)于簡(jiǎn)單或繁瑣(與畫(huà)面描述的無(wú)關(guān)信息過(guò)多)、缺少背景知識(shí)導(dǎo)致無(wú)法識(shí)別知名人物和地標(biāo)等問(wèn)題,并且許多模型并非中文原生,中文描述不夠精準(zhǔn)。

騰訊混元文生圖開(kāi)源模型推出小顯存版本,僅需6G顯存即可運(yùn)行

混元Captioner對(duì)圖片描述進(jìn)行結(jié)構(gòu)化與準(zhǔn)確度提升

騰訊混元文生圖開(kāi)源模型推出小顯存版本,僅需6G顯存即可運(yùn)行

混元Captioner的背景知識(shí)更為完善

混元Captioner模型針對(duì)文生圖場(chǎng)景專(zhuān)門(mén)進(jìn)行優(yōu)化:構(gòu)建了結(jié)構(gòu)化的圖片描述體系;并在模型層面,通過(guò)注入人工標(biāo)注、模型輸出、公開(kāi)數(shù)據(jù)等多種來(lái)源提升Caption描述的完整性;并注入知名文學(xué)作品形象、地標(biāo)、食物、動(dòng)物、中國(guó)元素與知識(shí)等大量背景知識(shí),讓模型輸出的描述更為準(zhǔn)確、完整。

騰訊混元文生圖開(kāi)源模型推出小顯存版本,僅需6G顯存即可運(yùn)行

混元Captioner模型構(gòu)建了結(jié)構(gòu)化的圖片描述體系

眾多開(kāi)發(fā)者關(guān)注,成最受歡迎國(guó)產(chǎn)DiT開(kāi)源模型

作為首個(gè)中文原生DiT開(kāi)源模型,混元DiT自全面開(kāi)源以來(lái),一直持續(xù)建設(shè)生態(tài)。6月,混元DiT發(fā)布的專(zhuān)屬加速庫(kù),可將推理效率進(jìn)一步提升,生圖時(shí)間縮短75%;并進(jìn)一步開(kāi)源了推理代碼;發(fā)布LoRA和ControlNet等插件。于此同時(shí),模型易用性大幅提升,用戶可以通過(guò)Hugging Face Diffusers快訊調(diào)用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓(xùn)練與使用混元DiT。

目前,在眾多開(kāi)發(fā)者的支持下,混元DiT發(fā)布不到2個(gè)月,Github Star數(shù)已經(jīng)超過(guò)2.6k,成為最受歡迎的國(guó)產(chǎn)DiT開(kāi)源模型。

騰訊混元文生圖開(kāi)源模型推出小顯存版本,僅需6G顯存即可運(yùn)行

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://v.mrkbao.com/news/111202407041800597464113284.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論