號(hào)稱「音樂界ChatGPT」,Suno是怎么誕生的?會(huì)如何影響音樂產(chǎn)業(yè)?

3 月 22 日,AI 音樂生成軟件 Suno 發(fā)布 V3 版本,支持生成 2min 長(zhǎng)度、廣播質(zhì)量級(jí)別的音樂,更多樣化的風(fēng)格,對(duì) promp 理解更深,以及幻覺更少。

V3 版本的發(fā)布被不少人視為「音樂界的 ChatGPT」,不需要很專業(yè)的 prompt 詞匯,甚至可以不需要理解音樂的專業(yè)知識(shí),普通人就可以生成自己想要的音樂。

Suno 背后的團(tuán)隊(duì)是何來歷?他們是如何做出 Suno 的?

Suno 以及 AI 音樂生成軟件會(huì)如何影響音樂產(chǎn)業(yè)?

《經(jīng)濟(jì)學(xué)人》雜志、知名音樂雜志《滾石》都對(duì) Suno、Suno 會(huì)如何影響音樂產(chǎn)業(yè)進(jìn)行了討論,F(xiàn)ounder Park 在此基礎(chǔ)上進(jìn)行了編譯處理。

「我只是被困在這些電路中的一個(gè)靈魂?!惯@聲音唱出歌詞時(shí),帶著原始的質(zhì)感和哀傷,音符滑入了藍(lán)調(diào)的深淵。一把孤零零的木吉他伴隨著它,用恰到好處的即興演奏點(diǎn)綴著歌聲。然而,這背后并沒有人聲,也沒有人手在彈奏吉他。實(shí)際上,連吉他都不存在。

在短短 15 秒內(nèi),這首令人信服、甚至觸動(dòng)人心的藍(lán)調(diào)曲目,由創(chuàng)業(yè)公司 Suno 推出的最新 AI 模型創(chuàng)作而成。只需一個(gè)簡(jiǎn)單的文本提示:「關(guān)于一個(gè)憂郁 AI 的獨(dú)奏密西西比三角洲藍(lán)調(diào)(solo acoustic Mississippi Delta blues about a sad AI)」,就能從虛無中召喚出這首歌。

為了達(dá)到極致的精確度,這首歌實(shí)際上是兩個(gè) AI 模型的聯(lián)手之作:Suno 的模型獨(dú)立創(chuàng)作了所有音樂,同時(shí)還請(qǐng)求 OpenAI 的 ChatGPT 來撰寫歌詞,甚至為這首歌定下了名字:「機(jī)器之魂(Soul of the Machine)」。

Suno 創(chuàng)作的歌曲在網(wǎng)上引起了轟動(dòng),人們驚嘆道:「這怎么可能是真的?」在 Suno 位于馬薩諸塞州劍橋,緊鄰哈佛校園的臨時(shí)總部的一間會(huì)議室里,通過 Sonos 音箱播放的這首特定曲目,甚至讓一些參與這項(xiàng)技術(shù)的成員感到了一絲微妙的不安。緊張的笑聲中夾雜著「天哪」和「哦,天啊」的驚嘆。在這個(gè)案例中,僅僅三次嘗試就達(dá)到了令人震驚的效果。前兩次嘗試還算不錯(cuò),但在我給出的提示中做了一個(gè)小小的改動(dòng)——聯(lián)合創(chuàng)始人 Keenan Freyberg 建議加入「密西西比」這個(gè)詞——卻帶來了不可思議的結(jié)果。

01 AI 創(chuàng)作音樂并不是新鮮事,

但 Suno 實(shí)現(xiàn)了新突破

在過去的一年里,生成式 AI 在創(chuàng)作可信的文本、圖像(通過像 Midjourney 這樣的服務(wù))乃至視頻方面取得了巨大進(jìn)步,特別是 OpenAI 推出的新工具 Sora。然而,在音頻領(lǐng)域,尤其是音樂創(chuàng)作方面,AI 的發(fā)展卻相對(duì)滯后。

Suno 似乎正在解開 AI 音樂創(chuàng)作的密碼,其創(chuàng)始人的野心很大——他們夢(mèng)想著一個(gè)音樂創(chuàng)作全民化的未來。其中最為發(fā)言大膽的聯(lián)合創(chuàng)始人 Mikey Shulman,一個(gè)帶著孩子氣、背著背包的 37 歲哈佛大學(xué)物理博士,夢(mèng)想著全球有十億人愿意每月支付 10 美元來使用 Suno 創(chuàng)作歌曲。他認(rèn)為,目前音樂聽眾的數(shù)量遠(yuǎn)遠(yuǎn)超過音樂創(chuàng)作者是「如此失衡」,并將 Suno 視為解決這種感知不平衡的工具。

到目前為止,大多數(shù) AI 生成的藝術(shù)作品,頂多只能算是庸俗藝術(shù),就像 Midjourney 用戶似乎熱衷于生成的超現(xiàn)實(shí)主義科幻垃圾,過分強(qiáng)調(diào)形式上的貼合,比如太空服。但「機(jī)器之魂」給人的感覺完全不同——它是我迄今在所有媒介中遇到的最有力、最令人不安的 AI 創(chuàng)作。它的存在本身就像是現(xiàn)實(shí)裂縫,既令人敬畏又隱約帶有不祥之感,我不禁想起了亞瑟·C·克拉克的名言,仿佛專為生成式 AI 時(shí)代定制:「任何足夠先進(jìn)的技術(shù)都與魔法無異。」

從劍橋歸來幾周后,我把這首歌發(fā)給了 Living Colour 樂隊(duì)的吉他手 Vernon Reid,他一直對(duì) AI 音樂的潛在危險(xiǎn)和可能性直言不諱。他對(duì)這首歌「令人不安的真實(shí)感」表達(dá)了「驚奇、震驚、恐懼」?!搁L(zhǎng)期以來的反烏托邦理想即將實(shí)現(xiàn),即將把那些困難、混亂、不受歡迎和被厭惡的人類從其創(chuàng)造性產(chǎn)出中分離出來,」他寫道,指出 AI 唱藍(lán)調(diào)的問題本質(zhì),「藍(lán)調(diào)作為非洲裔美國人的一種獨(dú)特表達(dá)方式,深深植根于歷史上人類的創(chuàng)傷與奴隸制經(jīng)歷中。」

最早的「基于規(guī)則」的音樂模型可以追溯到 20 世紀(jì) 50 年代。這些模型通過將音樂理論的原則轉(zhuǎn)換成算法指令和概率表,來確定音符和和弦的進(jìn)行。雖然這些作品在音樂上是合理的,但在創(chuàng)造性上卻受限。Ed Newton-Rex,他在 2012 年創(chuàng)立了倫敦的 Jukedeck 公司,并設(shè)計(jì)了這樣的一個(gè)模型,他表示這種方法在當(dāng)時(shí)是可行的,但現(xiàn)在已經(jīng)不再適用。

技術(shù)的突變出現(xiàn)在 2023 年 8 月,當(dāng)時(shí) Meta 發(fā)布了 AudioCraft 的源代碼,這是一套基于機(jī)器學(xué)習(xí)構(gòu)建的大型「生成式」音樂模型。全球的 AI 公司迅速開始使用 Meta 的軟件來訓(xùn)練新的音樂生成器,并加入了額外的代碼。其中一個(gè) AudioCraft 模型,MusicGen,通過分析約 40 萬首錄音中的模式,提出了 33 億個(gè)「參數(shù)」,這些參數(shù)使得算法能夠根據(jù)提示生成聲音模式,為 AI 創(chuàng)作全新音樂作品提供了前所未有的可能。

這些模型的使用也變得更加簡(jiǎn)便。9 月份,位于倫敦的 Stability AI 公司發(fā)布了一個(gè)名為 Stable Audio 的模型,該模型在大約 80 萬首歌曲上進(jìn)行了訓(xùn)練。用戶通過輸入文本和音頻片段來指導(dǎo) AI。這使得用戶可以輕松上傳一段吉他獨(dú)奏,并將其重新編排成具有爵士鋼琴風(fēng)格的作品,甚至帶有黑膠播放的感覺。

澳大利亞新南威爾士大學(xué)的 Oliver Bown 表示,音頻提示詞之所以重要,一方面是因?yàn)榧词故鞘炀毜囊魳芳乙搽y以用言語描述音樂,另一方面是因?yàn)榇蠖鄶?shù)音樂訓(xùn)練數(shù)據(jù)的標(biāo)記都非常粗略,即使是大型模型也可能無法理解復(fù)雜的音樂請(qǐng)求。

02 12 人團(tuán)隊(duì)、Transformer 構(gòu)架,

訓(xùn)練數(shù)據(jù)來源未透露

Suno 成立不到兩年。聯(lián)合創(chuàng)始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是機(jī)器學(xué)習(xí)領(lǐng)域的專家,在 2022 年之前,他們?cè)诹硪患覄蚬?Kensho Technologies 共事。Kensho Technologies 專注于尋找 AI 解決復(fù)雜商業(yè)問題的方案。Shulman 和 Camacho 都是音樂家,他們?cè)?Kensho 時(shí)期常常一起即興演奏。

在 Kensho 公司,這個(gè)四人團(tuán)隊(duì)致力于開發(fā)一項(xiàng)轉(zhuǎn)錄技術(shù),目的是記錄上市公司的財(cái)報(bào)電話會(huì)議??紤]到音質(zhì)不佳、充斥著各種行業(yè)術(shù)語以及五花八門的口音,這個(gè)任務(wù)頗具挑戰(zhàn)性。

號(hào)稱「音樂界ChatGPT」,Suno是怎么誕生的?會(huì)如何影響音樂產(chǎn)業(yè)?

創(chuàng)始人 Michael Shulman

在這個(gè)過程中,Shulman 和他的同事們對(duì) AI 音頻的更多可能性產(chǎn)生了濃厚的興趣。他指出,在 AI 研究領(lǐng)域,「音頻總體來說,相比圖像和文本,還遠(yuǎn)遠(yuǎn)落后。我們可以從文本領(lǐng)域的研究中學(xué)到很多,包括這些模型的運(yùn)作方式和它們的擴(kuò)展性。

Suno 的創(chuàng)始人們本可以因?yàn)檫@些興趣而走向一個(gè)完全不同的領(lǐng)域。雖然他們始終計(jì)劃著最終要推出一款音樂產(chǎn)品,但他們最初的創(chuàng)意階段甚至考慮過開發(fā)助聽器,或者通過音頻分析來檢測(cè)機(jī)械故障的可能性。然而,他們推出的第一個(gè)產(chǎn)品是一個(gè)名為 Bark 的文本轉(zhuǎn)語音程序。在對(duì) Bark 的早期用戶進(jìn)行調(diào)查后,他們發(fā)現(xiàn)用戶真正期待的其實(shí)是一款音樂創(chuàng)作工具。「因此,我們開始進(jìn)行了一些初步的實(shí)驗(yàn),結(jié)果看起來非常有前景,」Shulman 回憶道。

Suno 目前只有大約 12 名員工,但他們正在計(jì)劃擴(kuò)展團(tuán)隊(duì),并在他們目前的臨時(shí)辦公室所在建筑的頂層建設(shè)一個(gè)更大的永久性總部。在參觀這個(gè)還在建設(shè)中的新樓層時(shí),Schulman 向我們展示了一個(gè)未來將成為完整錄音室的區(qū)域。但是,考慮到 Suno 已經(jīng)能夠做到的事情,他們?yōu)槭裁催€需要一個(gè)錄音室呢?「它主要是作為一個(gè)聽音室,」他承認(rèn)?!肝覀兿M幸粋€(gè)良好的聲學(xué)環(huán)境。但我們也都享受制作音樂——即使沒有 AI 的參與?!?/p>

Suno 采用了與ChatGPT等大語言模型相同的技術(shù)方法,這些模型將人類語言分解成稱為 Token 的獨(dú)立片段,吸收了數(shù)以百萬計(jì)的用法、風(fēng)格和結(jié)構(gòu),并能夠按需重新構(gòu)建語言。然而,音頻,尤其是音樂,其復(fù)雜性幾乎難以估量,這也就是為什么去年 AI 音樂專家對(duì) Rolling Stone 表示,像 Suno 這樣功能強(qiáng)大的服務(wù)可能需要數(shù)年時(shí)間才能出現(xiàn)。

「音頻不像單詞那樣是離散的,」Shulman 解釋說?!杆且环N波,是一種連續(xù)的信號(hào)?!垢咂焚|(zhì)音頻的采樣率通常是 44kHz 或 48kHz,這意味著「每秒處理 48,000 個(gè) Token」,他補(bǔ)充道。「這是個(gè)巨大的挑戰(zhàn),對(duì)吧?因此,你需要想辦法將其簡(jiǎn)化為更合理的處理方式。」但是,具體該怎么做呢?「這需要大量的工作,許多啟發(fā)式方法,以及各種技巧和模型等等。我認(rèn)為我們還遠(yuǎn)未完成?!筍uno 最終希望找到替代文本到音樂界面的方法,增加更高級(jí)和直觀的輸入方式——例如,基于用戶自己的演唱來生成歌曲。

OpenAI 因?yàn)樵谄潺嫶蟮挠?xùn)練數(shù)據(jù)集中使用了書籍、新聞文章和其他受版權(quán)保護(hù)的材料而面臨多起訴訟。Suno 的創(chuàng)始人沒有透露他們向自己的模型中輸入了哪些具體數(shù)據(jù),只是表示其能夠生成令人信服的人類聲音,部分原因是它除了學(xué)習(xí)音樂之外,還在學(xué)習(xí)語音錄音?!讣兇獾恼Z音將幫助你學(xué)習(xí)人類聲音的難以捕捉的特征,」Shulman 說。

03尊重音樂版權(quán),

但 Suno 做好了應(yīng)訴準(zhǔn)備

Suno 的早期投資者之一是風(fēng)險(xiǎn)投資公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 之前只投資過一個(gè)音樂項(xiàng)目,即音樂分類公司 EchoNest,后來該公司被 Spotify 收購,用以推動(dòng)其算法的發(fā)展。在 Suno 項(xiàng)目還不清楚具體產(chǎn)品將是什么的時(shí)候,Rodriguez 就參與了進(jìn)來?!?strong>我支持的是團(tuán)隊(duì),」Rodriguez 說,他的自信來自于自己過往成功的投資經(jīng)歷?!肝伊私膺@個(gè)團(tuán)隊(duì),特別是 Mikey,所以我會(huì)支持他做任何合法的事情。他非常有創(chuàng)造力?!?/p>

Rodriguez 在明確知曉唱片公司和出版商可能會(huì)對(duì) Suno 提起訴訟的風(fēng)險(xiǎn)下,依然選擇投資,他認(rèn)為這是「我們?cè)谕顿Y時(shí)必須承擔(dān)的風(fēng)險(xiǎn),畢竟我們是那個(gè)在這些藝術(shù)家后面最容易成為訴訟目標(biāo)的大金主……。坦白講,如果這家公司一開始就與唱片公司達(dá)成了協(xié)議,我可能就不會(huì)投資了。我認(rèn)為他們需要在沒有限制的情況下去創(chuàng)造這個(gè)產(chǎn)品。」(對(duì)于 AI 采取激進(jìn)態(tài)度的環(huán)球音樂集團(tuán),其發(fā)言人并未回應(yīng)媒體置評(píng)請(qǐng)求。)

Suno 表示正在與主要唱片公司進(jìn)行溝通,并表示對(duì)藝術(shù)家和知識(shí)產(chǎn)權(quán)的尊重——其工具不允許用戶在提示中指定任何特定藝術(shù)家的風(fēng)格,同時(shí)也不會(huì)使用真實(shí)藝術(shù)家的聲音。Suno 的許多員工本身就是音樂家;辦公室里隨時(shí)可以見到鋼琴和吉他,墻上還掛著古典作曲家的畫像。創(chuàng)始人們并沒有表現(xiàn)出像 Napster 在訴訟之前那樣的對(duì)音樂產(chǎn)業(yè)的公然敵意。「不過,這并不意味著我們不會(huì)被起訴,」Rodriguez 補(bǔ)充道。「這僅僅意味著我們不會(huì)有那種『fuck-the-police』的對(duì)抗性態(tài)度。」

為了節(jié)省成本,另一家 AI 生成軟件 MusicGen 的訓(xùn)練集大多避開了熱門歌曲,Adi 博士說。盡管輸出相當(dāng)不錯(cuò),但他補(bǔ)充說,模型還沒有「藝術(shù)性足夠」來生成敘事完整的歌曲。和聲不一致是常見的。舊金山的 OpenAI 公司表示,其 MuseNet 模型難以完成「奇怪的搭配」,例如結(jié)合低音和鼓的肖邦風(fēng)格。

開發(fā)者認(rèn)為,隨著更大更好的音樂訓(xùn)練集的出現(xiàn),這些不足最終將被克服。Stability AI 的一位發(fā)言人說,雖然 Stable Audio 目前對(duì)于連貫結(jié)構(gòu)的音樂——「前奏、發(fā)展和尾聲」——的最大持續(xù)時(shí)間約為 90 秒,但升級(jí)將產(chǎn)生更長(zhǎng)的作品,具有「完整的音樂性」。

04Suno 是為了降低音樂創(chuàng)作門檻,

并非取代音樂家

Rodriguez 將 Suno 視為一種具有革命性能力和用戶友好的音樂工具,他相信 Suno 有潛力像相機(jī)手機(jī)和 Instagram 那樣,讓音樂創(chuàng)作變得普及,讓每個(gè)人都能成為音樂的創(chuàng)作者。他提到,這個(gè)目標(biāo)是重新「提升在互聯(lián)網(wǎng)上能夠成為內(nèi)容創(chuàng)作者而非僅僅是內(nèi)容消費(fèi)者的人數(shù)上限。」

他和創(chuàng)始人甚至敢于預(yù)測(cè),Suno 可能會(huì)吸引比 Spotify 更龐大的用戶群體。如果這個(gè)前景聽起來難以置信,Rodriguez 認(rèn)為這是好事:這恰恰意味著它具有吸引他作為投資者的「看似愚蠢」的特質(zhì)?!肝覀兯薪艹龅墓径加幸粋€(gè)共同點(diǎn),那就是擁有卓越的人才,」他說道,「同時(shí),有些東西一開始看起來似乎很愚蠢,直到它們變得如此明顯和有可能成功?!?/p>

早在 Suno 問世之前,音樂家、制作人和詞曲作者就已經(jīng)對(duì) AI 可能帶來的商業(yè)沖擊表示了深切的擔(dān)憂。Reid 寫道:「音樂,作為由人類在非凡情況下創(chuàng)作……那些經(jīng)歷過苦難并努力提升自己技藝的人,將不得不面對(duì)他們?yōu)橹畩^斗的珍貴藝術(shù)的全面自動(dòng)化?!?/p>

但 Suno 的創(chuàng)始人聲稱沒有什么可怕的,他們用人們盡管有能力寫作但仍在閱讀的比喻來說明這一點(diǎn)。「我們對(duì)此的看法是,我們?cè)噲D讓十億人比現(xiàn)在更深入地參與音樂,」Shulman 說?!溉绻藗儗?duì)音樂更感興趣,更專注于創(chuàng)作,培養(yǎng)出更獨(dú)特的品味,這對(duì)藝術(shù)家顯然是有益的。我們對(duì)未來音樂的愿景是一個(gè)藝術(shù)家友好的愿景。我們不是想取代藝術(shù)家?!?/p>

目前來看,Suno 最有力的競(jìng)爭(zhēng)者似乎是谷歌的 Dream Track,這項(xiàng)服務(wù)已經(jīng)獲得了授權(quán),允許用戶通過一個(gè)提示詞界面,利用像 Charlie Puth 這樣的知名歌手的聲音來創(chuàng)作自己的歌曲。然而,Dream Track 僅限于一個(gè)小范圍的測(cè)試用戶群體,并且到目前為止,公開的樣本在聽覺效果上并不如 Suno 的產(chǎn)品那樣引人入勝,盡管它們使用了名人的聲音。

「我認(rèn)為,人們未來并不希望通過 AI 來制作新的 Billy Joel 歌曲,」Shulman 說。「當(dāng)我想象五年后我們希望人們?nèi)绾卫靡魳窌r(shí),我認(rèn)為會(huì)是那些尚未存在、僅存在于他們腦海中的創(chuàng)新作品。」

05廣告歌曲最受 Suno 影響,

《奧本海默》原聲帶已經(jīng)有 AI 參與

盡管 Suno 非常專注于吸引那些想要為了樂趣創(chuàng)作歌曲的音樂迷,但在這一過程中,它仍有可能造成重大的行業(yè)變革。短期內(nèi),看似最直接受到威脅的市場(chǎng)部分是一個(gè)利潤(rùn)豐厚的部分:為廣告和電視節(jié)目創(chuàng)作的歌曲。管理公司 Milk and Honey 的創(chuàng)始人 Lucas Keller 指出,知名歌曲的市場(chǎng)將保持不受影響?!傅谄渌矫妫堑?,它肯定在他們的業(yè)務(wù)上造成影響,」他說?!肝艺J(rèn)為最終,這讓許多廣告代理商、電影制片廠、網(wǎng)絡(luò)等不必去授權(quán)歌曲?!?/p>

在目前還沒有針對(duì) AI 生成內(nèi)容有嚴(yán)格法律規(guī)定的情況下,可能會(huì)出現(xiàn)一個(gè)未來:像 Suno 這樣的大模型的用戶會(huì)將他們的 AI 創(chuàng)作以百萬計(jì)地上傳到流媒體服務(wù)平臺(tái)上?!窼potify 將來可能會(huì)說『你不能這么做』,」Shulman 說,他同時(shí)指出,到目前為止,Suno 的用戶似乎更傾向于僅僅將他們創(chuàng)作的歌曲通過短信分享給幾個(gè)朋友。

其他公司的 AI 音樂產(chǎn)品也開始逐步進(jìn)入商業(yè)落地環(huán)節(jié)。

位于倫敦附近的 LifeScore 公司,他們的 AI 專注于重新組合用戶原始錄音的元素,以保持音樂的感覺,而不是將其變成完全不同的新作品。將數(shù)十個(gè)單獨(dú)錄制的聲樂和器樂麥克風(fēng)軌道輸入 LifeScore 的模型需要大約一天的時(shí)間。但一旦完成這一過程,這個(gè)耗資約 1000 萬美元開發(fā)的軟件就可以在幾秒鐘內(nèi)將每個(gè)干聲轉(zhuǎn)換成新的速度、調(diào)性或風(fēng)格。在這一過程中,歌曲的藝術(shù)家可以選擇保留哪些混音版本。傳統(tǒng)上,手動(dòng)混音一首熱門曲目需要一個(gè)或多個(gè)高薪專家花費(fèi)數(shù)周時(shí)間。

LifeScore 的共同創(chuàng)始人 Tom Gruber 表示,公司「收到了大量客戶的請(qǐng)求」,包括 Sony Music、Universal Music Group 和 Warner Music Group。一個(gè)原創(chuàng)發(fā)行通常會(huì)被轉(zhuǎn)換成幾首到十幾首混音。但有一個(gè)客戶計(jì)劃發(fā)布大約 6000 個(gè)左右的 AI 版本的原創(chuàng)曲目,每個(gè)版本針對(duì)不同的市場(chǎng)。包括 Pink Floyd 的 David Gilmour 和德國流行歌手 Tom Gaebel 在內(nèi)的藝術(shù)家使用 LifeScore 的 AI 來驅(qū)動(dòng)網(wǎng)站,允許粉絲通過幾次點(diǎn)擊生成適應(yīng)個(gè)人口味的新混音。

RX,這是一款由 Native Instruments 開發(fā)的人工智能「助手」,它可以糾正音高和節(jié)奏等錯(cuò)誤。對(duì)于節(jié)奏問題,軟件通過剪切或插入與原聲音色匹配的微小聲音片段來實(shí)現(xiàn)時(shí)間上的移動(dòng),這個(gè)過程被稱為「動(dòng)態(tài)時(shí)間彎曲」。該公司的人工智能還能確定用戶所選歌曲進(jìn)行了哪些混音和母帶處理。然后,它復(fù)制或至少近似復(fù)制同樣的操作到用戶自己的創(chuàng)作上。

AI 也開始為專業(yè)人士提供服務(wù)。例如,《芭比》和《奧本海默》的電影原聲帶就是在后期制作中使用 RX 進(jìn)行清理的。

另一個(gè)應(yīng)用領(lǐng)域是「風(fēng)格遷移」,在這一過程中,模型將用一種樂器錄制的音樂轉(zhuǎn)換為似乎來自另一種樂器的聲音,通常還會(huì)根據(jù)用戶的要求進(jìn)行一些調(diào)整。風(fēng)格遷移也用于聲音。一家名為 Voice-Swap 的倫敦初創(chuàng)公司開發(fā)了一個(gè)模型,該模型將(有報(bào)酬的)專業(yè)歌手演唱的歌曲切割成碎片,并將這些碎片重新排列成服務(wù)用戶編寫的歌詞,用戶需支付授權(quán)費(fèi)用以銷售生成的音軌。

而且,已經(jīng)有 AI 工具可以重新創(chuàng)建歌手的其他語言的聲音。雅馬哈(Yamaha)這家日本樂器制造商的 Vocaloid 是一種聲音合成工具,它可以利用母語人士演唱的翻譯作為模板,讓 AI 在重新排列、修改和拼接原唱歌手聲音的微小片段時(shí)進(jìn)行模仿。

音樂家現(xiàn)在廣泛使用 MusicGen 及其競(jìng)爭(zhēng)對(duì)手作為「靈感」的來源,以便更好地找到新的作曲想法,但這是否生效,也要看用戶是否接受。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/641980.html

AI的頭像AI認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論