騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

6月21日,騰訊混元文生圖大模型(以下簡稱為混元DiT模型)宣布全面開源訓(xùn)練代碼,同時(shí)對外開源混元DiT LoRA 小規(guī)模數(shù)據(jù)集訓(xùn)練方案與可控制插件ControlNet。

這意味著,全球的企業(yè)與個(gè)人開發(fā)者、創(chuàng)作者們,都可以基于混元DiT訓(xùn)練代碼進(jìn)行精調(diào),創(chuàng)造更具個(gè)性化的專屬模型,進(jìn)行更大自由度的創(chuàng)作;或基于混元DiT的代碼進(jìn)行修改和優(yōu)化,基于此構(gòu)建自身應(yīng)用,推動(dòng)技術(shù)的快速迭代和創(chuàng)新。

作為中文原生模型,用戶在通過混元DiT的訓(xùn)練代碼進(jìn)行精調(diào)時(shí),可以直接使用中文的數(shù)據(jù)與標(biāo)簽,無需再將數(shù)據(jù)翻譯成英文。

此前,騰訊混元文生圖大模型宣布全面升級(jí)并對外開源,已在 Hugging Face 平臺(tái)及 Github 上發(fā)布,可供企業(yè)與個(gè)人開發(fā)者免費(fèi)商用。這是業(yè)內(nèi)首個(gè)中文原生的DiT架構(gòu)文生圖開源模型,支持中英文雙語輸入及理解。模型開源僅一個(gè)月,Github Star數(shù)達(dá)到2.4k,位于開源社區(qū)熱門DiT模型前列。

騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

混元DiT Github項(xiàng)目頁面

在開源訓(xùn)練代碼的同時(shí), LoRA小規(guī)模數(shù)據(jù)集訓(xùn)練方案與可控制插件ControlNet的發(fā)布也讓混元DiT模型的開源生態(tài)更具想象力。

LoRA模型,全稱Low-Rank Adaptation of Large Language Models,是一種用于微調(diào)大型語言模型的技術(shù)。在文生圖模型中,LoRA被用作一種插件,允許用戶在不修改原有模型與增加模型大小的情況下,利用少量數(shù)據(jù)訓(xùn)練出具有特定畫風(fēng)、IP或人物特征的模型。

LoRA技術(shù)在文生圖開源領(lǐng)域十分受歡迎,大量的創(chuàng)作者利用這種技術(shù)創(chuàng)造出多種多樣的模型,比如使用幾張個(gè)人照片,生成一個(gè)專屬于某個(gè)人的高精度照相館;或創(chuàng)造出盲盒、黏土等風(fēng)格模型。

騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

AI圖像社區(qū)LiblibAI上的LoRA模型

混元DiT本次發(fā)布的專屬LoRA插件,支持開發(fā)者最少僅需一張圖即可創(chuàng)作出專屬的模型。比如,導(dǎo)入四張青花瓷圖片與相應(yīng)的提示詞,即可完成模型訓(xùn)練,創(chuàng)建了一個(gè)“青花瓷”生成模型:用戶輸入簡單提示詞,即可生成想要的青花瓷圖像。

部分訓(xùn)練數(shù)據(jù):

騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

訓(xùn)練后模型的推理結(jié)果示例:

騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

使用混元DiT LoRA訓(xùn)練的青花瓷生成模型

本次上線的另一個(gè)插件ControlNet,則是一種應(yīng)用于文生圖領(lǐng)域的可控化生成算法,它允許用戶通過添加額外條件來更好地控制圖像的生成。

目前,騰訊混元提供了能提取與應(yīng)用圖像的邊緣(canny)、深度(depth)、人體姿勢(pose)等條件的三個(gè)首發(fā)ControlNet模型,讓開發(fā)者直接使用其進(jìn)行推理。該三個(gè)ControlNet插件能實(shí)現(xiàn)通過線稿生成全彩圖、生成具有同樣深度結(jié)構(gòu)的圖、生成具有同樣姿態(tài)的人等能力。同時(shí),混元DiT也開源了ControlNet的訓(xùn)練方案,開發(fā)者與創(chuàng)作者可以訓(xùn)練自定義的ControlNet模型。

騰訊混元文生圖大模型開源訓(xùn)練代碼,發(fā)布LoRA與ControlNet插件

騰訊混元DiT上線的三個(gè)ControlNet插件效果演示

自混元DiT模型開源以來,得到了眾多開發(fā)者的支持和反饋,騰訊混元團(tuán)隊(duì)也一直在持續(xù)完善和優(yōu)化基于混元DiT的開源組件,與行業(yè)共建下一代視覺生成開源生態(tài)。本月初,混元DiT發(fā)布的專屬加速庫,可將推理效率進(jìn)一步提升,生圖時(shí)間縮短75%。同時(shí)模型易用性大幅提升,用戶可以基于ComfyUI的圖形化界面,使用混元DiT,或者通過Hugging Face Diffusers通用模型庫,僅用三行代碼即可調(diào)用混元DiT模型,無需下載原始代碼庫。

據(jù)了解,騰訊混元文生圖能力已廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項(xiàng)業(yè)務(wù)及場景中。今年初,騰訊廣告基于騰訊混元大模型發(fā)布了一站式AI廣告創(chuàng)意平臺(tái)騰訊廣告妙思?!堆胍曅侣劇贰缎氯A日報(bào)》等20余家媒體也已經(jīng)將騰訊混元文生圖用于新聞內(nèi)容生產(chǎn)。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:https://v.mrkbao.com/news/111202406211334417464154210.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論