在人工智能AI的浪潮中,圖像編輯技術(shù)正迎來一場革命。蘋果Apple公司與加州大學圣巴巴拉分校合作開發(fā)的MGIE(MLLM引導圖像編輯)模型,便是這場革命的最新成果。這款工具允許用戶通過簡單的語言描述來編輯照片,無需接觸復雜的圖像編輯軟件。
MGIE模型的強大之處在于其多模態(tài)語言模型的應(yīng)用。首先,它能夠?qū)W習并理解用戶的語言提示,然后“想象”出編輯后的效果。這意味著,用戶只需告訴MGIE他們想要更改的內(nèi)容,比如“讓天空更藍”或“添加更多對比度以模擬更多光線”,MGIE便能自動對照片進行相應(yīng)的編輯。
這一過程的實現(xiàn)離不開蘋果在機器學習領(lǐng)域的深厚積累。通過訓練,MGIE模型已經(jīng)能夠準確地解釋并執(zhí)行各種編輯指令,無論是簡單的裁剪、調(diào)整大小,還是更復雜的對象修改和濾鏡添加。
為了展示MGIE的能力,研究人員在論文中使用了一些生動的示例。比如,當用戶對一張意大利辣香腸披薩的照片輸入提示“使其更健康”時,MGIE會自動在披薩上添加蔬菜配料。又如,一張原本昏暗的撒哈拉老虎照片,在輸入“添加更多對比度以模擬更多光線”后,變得明亮而生動。
這些示例不僅展示了MGIE的實用性,也證明了其在保持高效的同時,能夠顯著提高圖像編輯的性能。研究人員表示,MGIE不是簡單地執(zhí)行模糊的指導,而是能夠準確理解用戶的視覺感知意圖,并產(chǎn)生合理的編輯效果。
值得一提的是,蘋果并不是生成人工智能領(lǐng)域的傳統(tǒng)強手。與微軟、Meta或谷歌等巨頭相比,蘋果在AI領(lǐng)域的布局相對保守。然而,隨著MGIE等創(chuàng)新工具的推出,以及蘋果首席執(zhí)行官蒂姆·庫克對增加更多AI功能的承諾,我們可以看到蘋果在人工智能領(lǐng)域的野心正在逐步顯現(xiàn)。
去年12月,蘋果發(fā)布了名為MLX的開源機器學習框架,旨在簡化在Apple Silicon芯片上訓練AI模型的過程。這一舉措不僅降低了AI技術(shù)的門檻,也為開發(fā)者提供了更多創(chuàng)新的可能性。
當然,MGIE模型的推出并不意味著其他圖像編輯工具將黯然失色。事實上,像Adobe這樣的行業(yè)巨頭也在積極探索AI技術(shù)在圖像編輯領(lǐng)域的應(yīng)用。其Firefly AI模型便是一個很好的例子,它支持生成填充功能,可以將生成的背景自然地添加到照片中。
總的來說,MGIE是蘋果在人工智能領(lǐng)域的一次重要嘗試,它不僅提升了圖像編輯的便捷性和效率,也為我們展示了AI技術(shù)在創(chuàng)意表達方面的無限潛力。隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展,我們有理由相信,未來的圖像編輯將更加智能、直觀和富有創(chuàng)意。
原創(chuàng)文章,作者:檸萌,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/629258.html