騰訊混元文生圖開(kāi)源模型推出小顯存版本，僅需6G顯存即可運(yùn)行

陳晨 ? 2024年7月5日 08:49:00 ? 產(chǎn)經(jīng)

7月4日，騰訊混元文生圖大模型（混元DiT）宣布開(kāi)源小顯存版本，僅需6G顯存即可運(yùn)行，對(duì)使用個(gè)人電腦本地部署的開(kāi)發(fā)者十分友好，該版本與LoRA、ControlNet等插件，都已適配至Diffusers庫(kù)；并新增對(duì)Kohya圖形化界面的支持，讓開(kāi)發(fā)者可以低門(mén)檻地訓(xùn)練個(gè)性化LoRA模型；同時(shí)，混元DiT模型升級(jí)至1.2版本，在圖片質(zhì)感與構(gòu)圖方面均有所提升。

此外，騰訊宣布混元文生圖打標(biāo)模型”混元Captioner“正式對(duì)外開(kāi)源。該模型支持中英文雙語(yǔ)，針對(duì)文生圖場(chǎng)景進(jìn)行專(zhuān)門(mén)優(yōu)化，可幫助開(kāi)發(fā)者快速制作高質(zhì)量的文生圖數(shù)據(jù)集。

相比起業(yè)界的開(kāi)源打標(biāo)模型，混元Captioner模型能更好的理解與表達(dá)中文語(yǔ)義，輸出的圖片描述更為結(jié)構(gòu)化、完整和準(zhǔn)確，并能精準(zhǔn)識(shí)別出常見(jiàn)知名人物與地標(biāo)。模型還支持開(kāi)發(fā)者自行補(bǔ)充和導(dǎo)入個(gè)性化的背景知識(shí)。

混元Captioner模型開(kāi)源之后，全球的文生圖研究者、數(shù)據(jù)標(biāo)注人員，均可使用混元Captioner高效地提升自身圖像描述質(zhì)量，生成更全面、更準(zhǔn)確的圖片描述，提升模型效果?；煸狢aptioner生成的數(shù)據(jù)集不僅能用于訓(xùn)練基于混元DiT的模型，亦可用于其他視覺(jué)模型訓(xùn)練。

模型易用性再提升，個(gè)人電腦可輕松運(yùn)行

騰訊混元DiT模型宣布了三大更新：推出小顯存版本與Kohya訓(xùn)練界面，并升級(jí)至1.2版本，進(jìn)一步降低使用門(mén)檻的同時(shí)提升圖片質(zhì)量。

基于DiT架構(gòu)的文生圖模型生成圖片質(zhì)感更佳，但對(duì)顯存的要求卻非常高，讓許多開(kāi)發(fā)者望而卻步。這也是新版本Stable Diffusion模型無(wú)法快速普及的原因之一。

應(yīng)廣大開(kāi)發(fā)者的需求，混元DiT推出小顯存版本，最低僅需6G顯存即可運(yùn)行優(yōu)化推理框架，對(duì)使用個(gè)人電腦本地部署的開(kāi)發(fā)者非常友好。經(jīng)過(guò)與Hugging Face合作，小顯存版本、LoRA與ControlNet插件，都已經(jīng)適配到Diffusers庫(kù)中。開(kāi)發(fā)者無(wú)需下載原始代碼，僅用簡(jiǎn)單的三行代碼僅可調(diào)用，大大簡(jiǎn)化了使用成本。

同時(shí)，混元DiT宣布接入Kohya，讓開(kāi)發(fā)者可以低門(mén)檻地訓(xùn)練專(zhuān)屬LoRA模型。

Kohya是一個(gè)開(kāi)源的、輕量化模型微調(diào)訓(xùn)練服務(wù)，提供了圖形化的用戶界面，被廣泛用于擴(kuò)散模型類(lèi)文生圖模型的訓(xùn)練。用戶可以通過(guò)圖形化界面，完成模型的全參精調(diào)及LoRA訓(xùn)練，無(wú)需涉及到代碼層面的細(xì)節(jié)。訓(xùn)練好的模型符合Kohya生態(tài)架構(gòu)，可以低成本與 WebUI 等推理界面結(jié)合，實(shí)現(xiàn)一整套“訓(xùn)練-生圖”工作流。

面向文生圖、支持中英文，提升數(shù)據(jù)質(zhì)量

在提升模型易用性的同時(shí)，騰訊混元團(tuán)隊(duì)也在開(kāi)放更多的關(guān)鍵技術(shù)，包括此前的訓(xùn)練代碼，最新的打標(biāo)模型混元Captioner。

數(shù)據(jù)集就像AI訓(xùn)練的教材。訓(xùn)練數(shù)據(jù)集的質(zhì)量，影響著模型生成內(nèi)容的效果。因此，文生圖開(kāi)發(fā)者往往需要對(duì)原始圖片進(jìn)行清晰、全面的標(biāo)注，制作高質(zhì)量的數(shù)據(jù)集，才能訓(xùn)練出來(lái)一個(gè)語(yǔ)義理解準(zhǔn)確、繪畫(huà)技藝高超的文生圖大模型。

借助打標(biāo)模型，開(kāi)發(fā)者可以快速生成高質(zhì)量數(shù)據(jù)集。具體來(lái)說(shuō)，文生圖開(kāi)發(fā)者將原始圖片集導(dǎo)入混元Captioner，后者將生成高質(zhì)量標(biāo)注；也可以導(dǎo)入圖片與原始描述，利用混元Captioner過(guò)濾其中的無(wú)關(guān)信息，并完善和優(yōu)化圖片描述，以提高數(shù)據(jù)質(zhì)量。

目前，業(yè)界對(duì)于圖片描述文本的生成，主要使用通用多模態(tài)Captioner模型，存在描述過(guò)于簡(jiǎn)單或繁瑣（與畫(huà)面描述的無(wú)關(guān)信息過(guò)多）、缺少背景知識(shí)導(dǎo)致無(wú)法識(shí)別知名人物和地標(biāo)等問(wèn)題，并且許多模型并非中文原生，中文描述不夠精準(zhǔn)。

混元Captioner對(duì)圖片描述進(jìn)行結(jié)構(gòu)化與準(zhǔn)確度提升

混元Captioner的背景知識(shí)更為完善

混元Captioner模型針對(duì)文生圖場(chǎng)景專(zhuān)門(mén)進(jìn)行優(yōu)化：構(gòu)建了結(jié)構(gòu)化的圖片描述體系；并在模型層面，通過(guò)注入人工標(biāo)注、模型輸出、公開(kāi)數(shù)據(jù)等多種來(lái)源提升Caption描述的完整性；并注入知名文學(xué)作品形象、地標(biāo)、食物、動(dòng)物、中國(guó)元素與知識(shí)等大量背景知識(shí)，讓模型輸出的描述更為準(zhǔn)確、完整。

混元Captioner模型構(gòu)建了結(jié)構(gòu)化的圖片描述體系

眾多開(kāi)發(fā)者關(guān)注，成最受歡迎國(guó)產(chǎn)DiT開(kāi)源模型

作為首個(gè)中文原生DiT開(kāi)源模型，混元DiT自全面開(kāi)源以來(lái)，一直持續(xù)建設(shè)生態(tài)。6月，混元DiT發(fā)布的專(zhuān)屬加速庫(kù)，可將推理效率進(jìn)一步提升，生圖時(shí)間縮短75%；并進(jìn)一步開(kāi)源了推理代碼；發(fā)布LoRA和ControlNet等插件。于此同時(shí)，模型易用性大幅提升，用戶可以通過(guò)Hugging Face Diffusers快訊調(diào)用混元DiT模型及其插件，或基于Kohya和ComfyUI等圖形化界面訓(xùn)練與使用混元DiT。

目前，在眾多開(kāi)發(fā)者的支持下，混元DiT發(fā)布不到2個(gè)月，Github Star數(shù)已經(jīng)超過(guò)2.6k，成為最受歡迎的國(guó)產(chǎn)DiT開(kāi)源模型。

本文轉(zhuǎn)載自：，不代表科技訊之立場(chǎng)。原文鏈接：http://v.mrkbao.com/news/111202407041800597464113284.html

陳晨管理團(tuán)隊(duì)

0 0

產(chǎn)經(jīng)

8條騎行拍攝Tips，賊出片！

周末在上海滴水湖邊追著日落騎行好舒服啊強(qiáng)烈推薦日落時(shí)分來(lái)騎行，真的能拍出人生照片！剛好今天來(lái)分享下一些騎行拍攝tips: 01追焦慢門(mén)，捕捉動(dòng)感找到一條安全的馬路，攝影師可以站…

陳晨
13小時(shí)前
產(chǎn)經(jīng)

小明Q3 Pro與當(dāng)貝Smart1投影儀測(cè)評(píng)對(duì)比：千元投影的極致性?xún)r(jià)比

對(duì)于初次接觸投影儀的消費(fèi)者來(lái)說(shuō),千元級(jí)別的產(chǎn)品無(wú)疑是既實(shí)惠又實(shí)用的選擇。在這個(gè)價(jià)位段中,小明Q3 Pro和當(dāng)貝Smart1兩款家用投影儀以其各自獨(dú)特的功能和優(yōu)勢(shì),吸引了眾多消費(fèi)者的…

陳晨
13小時(shí)前
產(chǎn)經(jīng)

激光投影儀怎么選？當(dāng)貝推出全新超級(jí)投影F7 Pro，4K+護(hù)眼三色激光

在家庭影院逐漸成為現(xiàn)代家居的標(biāo)配之時(shí),激光投影儀以其卓越的畫(huà)質(zhì)和色彩表現(xiàn)力,成為了許多家庭升級(jí)觀影體驗(yàn)的首選。然而,面對(duì)市場(chǎng)上眾多品牌和型號(hào)的激光投影儀,如何挑選一款性?xún)r(jià)比高、性能…

陳晨
13小時(shí)前
產(chǎn)經(jīng)

7000元價(jià)位投影儀怎么選？當(dāng)貝推出F7 Pro，4K+護(hù)眼三色激光

在7000元價(jià)位選擇投影儀時(shí),消費(fèi)者面臨諸多選擇,而一款優(yōu)質(zhì)的投影儀能夠?yàn)槟募彝?lái)極佳的觀影體驗(yàn)。以下是幾個(gè)關(guān)鍵要點(diǎn),幫助您在這個(gè)價(jià)位段內(nèi)做出明智的選擇。 ①光源技術(shù):優(yōu)先考慮…

陳晨
13小時(shí)前
產(chǎn)經(jīng)

橋田觀點(diǎn) | 高壁壘細(xì)分領(lǐng)域中國(guó)的品牌能夠做些什么？

1959年，美國(guó)推出世界第一臺(tái)工業(yè)機(jī)器人，當(dāng)時(shí)的功能還十分簡(jiǎn)單，只能用于定點(diǎn)搬運(yùn)東西。1967年，日本從美國(guó)引進(jìn)第一臺(tái)工業(yè)機(jī)器人，開(kāi)啟自主研發(fā)和產(chǎn)業(yè)化之路。在那之后的二十年，日本的…

陳晨
14小時(shí)前
產(chǎn)經(jīng)

什么是游戲玩家的“戰(zhàn)斗武器”？ 10月24日京東3C數(shù)碼采銷(xiāo)直播間揭曉答案

京東11.11期間，為滿足游戲玩家對(duì)電競(jìng)筆記本的性能、品質(zhì)、輕薄便攜性的需求，10月24日，AMD大中華區(qū)銷(xiāo)售副總裁晁亞新及機(jī)械革命零售業(yè)務(wù)群總經(jīng)理李應(yīng)龍將做客京東3C數(shù)碼采銷(xiāo)直播…

陳晨
14小時(shí)前
產(chǎn)經(jīng)

華為攜手光明，共同打造粵港澳大灣區(qū)AI創(chuàng)新高地

10月22日，深圳市光明區(qū)人民政府與深圳華為云計(jì)算技術(shù)有限公司簽署了《共同推動(dòng)光明人工智能應(yīng)用服務(wù)中心合作協(xié)議》。簽約儀式上，深圳市光明區(qū)委常委、區(qū)委區(qū)政府辦公室主任李興亮，華為云…

陳晨
15小時(shí)前
產(chǎn)經(jīng)

產(chǎn)品設(shè)計(jì)再獲國(guó)際認(rèn)可，悅刻榮膺2024繆斯設(shè)計(jì)獎(jiǎng)

近日，美國(guó)國(guó)際獎(jiǎng)項(xiàng)協(xié)會(huì)“繆斯設(shè)計(jì)獎(jiǎng)” （MUSE Design Awards）公布年度獲獎(jiǎng)名單。RELX悅刻在海外市場(chǎng)推出的“悅刻旋風(fēng)”（RELX SPIN）和“悅刻創(chuàng)造者”（RE…

陳晨
15小時(shí)前
產(chǎn)經(jīng)

超千款鴻蒙原生游戲上架，華為游戲中心成就非凡游戲體驗(yàn)

10月22日，原生鴻蒙之夜暨華為全場(chǎng)景新品發(fā)布會(huì)在深圳舉行，華為正式為用戶帶來(lái)全新的原生鴻蒙操作系統(tǒng)（HarmonyOS NEXT），這是HarmonyOS誕生以來(lái)最大的更新。發(fā)布…

陳晨
16小時(shí)前
五大舉措打造鄉(xiāng)村振興幫扶“示范田” 中國(guó)平安在甘肅舉行支持產(chǎn)業(yè)振興及助農(nóng)協(xié)銷(xiāo)調(diào)研活動(dòng)

為鞏固拓展脫貧攻堅(jiān)成果，助力全面推進(jìn)鄉(xiāng)村振興戰(zhàn)略實(shí)施，著力打造鄉(xiāng)村振興定點(diǎn)幫扶示范典型項(xiàng)目，在第七個(gè)”中國(guó)農(nóng)民豐收節(jié)”到來(lái)之際，9月24日-25日，中國(guó)平安…

陳晨
產(chǎn)經(jīng) 16小時(shí)前
產(chǎn)經(jīng)

買(mǎi)5G選中興放心流量來(lái)京東中興U30 Air系列推出三款新品

10月23日，中興通訊推出了三款中興U30 Air 系列5G隨身WiFi新品，包括面向亞太國(guó)家或地區(qū)喜歡出游用戶的中興U30 Air亞太版，采用全新太空主題配色、專(zhuān)為大存儲(chǔ)辦公和備…

陳晨
16小時(shí)前
產(chǎn)經(jīng)

原生鴻蒙發(fā)布！搭載該系統(tǒng)的華為設(shè)備開(kāi)機(jī)畫(huà)面將顯示“Powered by OpenHarmony”

10月22日，在原生鴻蒙之夜暨華為全場(chǎng)景新品發(fā)布會(huì)上，華為正式發(fā)布原生鴻蒙操作系統(tǒng)HarmonyOS NEXT，這也是繼蘋(píng)果iOS和安卓系統(tǒng)后，全球第三大移動(dòng)操作系統(tǒng)。據(jù)悉，此次發(fā)…

陳晨
16小時(shí)前
產(chǎn)經(jīng)

四大藍(lán)科技滿血集結(jié)，“一超多能”旗艦vivo X200系列發(fā)布

2024年10月14日北京 —— 10月14日，全新一代vivo X200系列旗艦手機(jī)在國(guó)家游泳中心（水立方）發(fā)布。作為重磅登場(chǎng)的國(guó)產(chǎn)旗艦系列，vivo X200系列首…

陳晨
17小時(shí)前
擎云智慧政務(wù)全場(chǎng)景解決方案獲2024安防行業(yè)優(yōu)秀解決方案獎(jiǎng)助力安防體系高質(zhì)量發(fā)展

10月22日，由中國(guó)安全防范產(chǎn)品行業(yè)協(xié)會(huì)組織的“2024安防行業(yè)優(yōu)秀解決方案”評(píng)選結(jié)果正式揭曉，華為擎云攜手合作伙伴打造的擎云智慧政務(wù)全場(chǎng)景解決方案獲得2024安防行業(yè)優(yōu)秀解決方案…

陳晨
產(chǎn)經(jīng) 17小時(shí)前
產(chǎn)經(jīng)

vivo X200全面評(píng)測(cè)，中杯旗艦的標(biāo)準(zhǔn)答案

最近，vivo攜手聯(lián)發(fā)科帶來(lái)了新一代旗艦手機(jī)——vivo X200。這款手機(jī)不僅繼承了vivo X系列一貫的優(yōu)雅設(shè)計(jì)和出色影像實(shí)力，還在性能、續(xù)航等多個(gè)方面實(shí)現(xiàn)了全面升級(jí)，為用戶帶…

陳晨
17小時(shí)前
鴻蒙生態(tài)蓬勃發(fā)展：超1萬(wàn)5應(yīng)用和元服務(wù)上架，版本迭代日新月異

10月22日，華為在“原生鴻蒙之夜暨華為全場(chǎng)景新品發(fā)布會(huì)”上正式揭曉HarmonyOS NEXT。截至目前，鴻蒙生態(tài)設(shè)備數(shù)量已突破10億，超15000個(gè)應(yīng)用和元服務(wù)上架Harmon…

陳晨
產(chǎn)經(jīng) 17小時(shí)前
飛書(shū)鴻蒙原生應(yīng)用正式發(fā)布，核心功能適配僅用4個(gè)月

10月22日，“原生鴻蒙之夜暨華為全場(chǎng)景新品發(fā)布會(huì)”在深圳舉行，華為正式為用戶帶來(lái)全新的原生鴻蒙操作系統(tǒng)（HarmonyOS NEXT），這是HarmonyOS誕生以來(lái)最大的更新，…

陳晨
產(chǎn)經(jīng) 17小時(shí)前
產(chǎn)經(jīng)

華為原生鴻蒙之夜官宣1024程序員節(jié)彩蛋：與鴻蒙開(kāi)發(fā)者共碼未來(lái)

在10月22日舉行的“原生鴻蒙之夜暨華為全場(chǎng)景新品發(fā)布會(huì)”上，華為常務(wù)董事、終端BG董事長(zhǎng)、智能汽車(chē)解決方案BU董事長(zhǎng)余承東公布了鴻蒙生態(tài)的最新進(jìn)展：“HarmonyOS已成為最具…

陳晨
17小時(shí)前
沖刺雙十一，華為智選攜海雀又推新品！發(fā)起4K芯升級(jí)

雙十一前夕,華為智選在攝像頭品類(lèi)又有新動(dòng)作。10月23日,華為智選攜手海雀,發(fā)布新款智能攝像頭——海雀智能攝像頭3s 4K版。這款攝像頭搭載了海思新一代雙核芯片,這也是海思回歸后的…

陳晨
產(chǎn)經(jīng) 17小時(shí)前
產(chǎn)經(jīng)

【豐收節(jié)里話豐收】百場(chǎng)直播助農(nóng)行動(dòng)啟動(dòng)，鄉(xiāng)村振興“活力滿滿”

9月22日，農(nóng)歷秋分日，第七個(gè)“中國(guó)農(nóng)民豐收節(jié)”如約而至。為慶祝中國(guó)農(nóng)民豐收節(jié)，平安產(chǎn)險(xiǎn)發(fā)布《草原的盡頭是大?！分黝}視頻，通過(guò)講述內(nèi)蒙古陰山腳下燕麥和廣東南海之濱海洋牧場(chǎng)的豐收故…

陳晨
17小時(shí)前