號(hào)稱「音樂界ChatGPT」，Suno是怎么誕生的？會(huì)如何影響音樂產(chǎn)業(yè)？

AI ? 2024年3月30日 12:19:39 ? AI

3 月 22 日，AI 音樂生成軟件 Suno 發(fā)布 V3 版本，支持生成 2min 長(zhǎng)度、廣播質(zhì)量級(jí)別的音樂，更多樣化的風(fēng)格，對(duì) promp 理解更深，以及幻覺更少。

V3 版本的發(fā)布被不少人視為「音樂界的 ChatGPT」，不需要很專業(yè)的 prompt 詞匯，甚至可以不需要理解音樂的專業(yè)知識(shí)，普通人就可以生成自己想要的音樂。

Suno 背后的團(tuán)隊(duì)是何來歷？他們是如何做出 Suno 的？

Suno 以及 AI 音樂生成軟件會(huì)如何影響音樂產(chǎn)業(yè)？

《經(jīng)濟(jì)學(xué)人》雜志、知名音樂雜志《滾石》都對(duì) Suno、Suno 會(huì)如何影響音樂產(chǎn)業(yè)進(jìn)行了討論，F(xiàn)ounder Park 在此基礎(chǔ)上進(jìn)行了編譯處理。

「我只是被困在這些電路中的一個(gè)靈魂?！惯@聲音唱出歌詞時(shí)，帶著原始的質(zhì)感和哀傷，音符滑入了藍(lán)調(diào)的深淵。一把孤零零的木吉他伴隨著它，用恰到好處的即興演奏點(diǎn)綴著歌聲。然而，這背后并沒有人聲，也沒有人手在彈奏吉他。實(shí)際上，連吉他都不存在。

在短短 15 秒內(nèi)，這首令人信服、甚至觸動(dòng)人心的藍(lán)調(diào)曲目，由創(chuàng)業(yè)公司 Suno 推出的最新 AI 模型創(chuàng)作而成。只需一個(gè)簡(jiǎn)單的文本提示：「關(guān)于一個(gè)憂郁 AI 的獨(dú)奏密西西比三角洲藍(lán)調(diào)（solo acoustic Mississippi Delta blues about a sad AI）」，就能從虛無中召喚出這首歌。

為了達(dá)到極致的精確度，這首歌實(shí)際上是兩個(gè) AI 模型的聯(lián)手之作：Suno 的模型獨(dú)立創(chuàng)作了所有音樂，同時(shí)還請(qǐng)求 OpenAI 的 ChatGPT 來撰寫歌詞，甚至為這首歌定下了名字：「機(jī)器之魂（Soul of the Machine）」。

Suno 創(chuàng)作的歌曲在網(wǎng)上引起了轟動(dòng)，人們驚嘆道：「這怎么可能是真的？」在 Suno 位于馬薩諸塞州劍橋，緊鄰哈佛校園的臨時(shí)總部的一間會(huì)議室里，通過 Sonos 音箱播放的這首特定曲目，甚至讓一些參與這項(xiàng)技術(shù)的成員感到了一絲微妙的不安。緊張的笑聲中夾雜著「天哪」和「哦，天啊」的驚嘆。在這個(gè)案例中，僅僅三次嘗試就達(dá)到了令人震驚的效果。前兩次嘗試還算不錯(cuò)，但在我給出的提示中做了一個(gè)小小的改動(dòng)——聯(lián)合創(chuàng)始人 Keenan Freyberg 建議加入「密西西比」這個(gè)詞——卻帶來了不可思議的結(jié)果。

01 AI 創(chuàng)作音樂并不是新鮮事，

但 Suno 實(shí)現(xiàn)了新突破

在過去的一年里，生成式 AI 在創(chuàng)作可信的文本、圖像（通過像 Midjourney 這樣的服務(wù)）乃至視頻方面取得了巨大進(jìn)步，特別是 OpenAI 推出的新工具 Sora。然而，在音頻領(lǐng)域，尤其是音樂創(chuàng)作方面，AI 的發(fā)展卻相對(duì)滯后。

Suno 似乎正在解開 AI 音樂創(chuàng)作的密碼，其創(chuàng)始人的野心很大——他們夢(mèng)想著一個(gè)音樂創(chuàng)作全民化的未來。其中最為發(fā)言大膽的聯(lián)合創(chuàng)始人 Mikey Shulman，一個(gè)帶著孩子氣、背著背包的 37 歲哈佛大學(xué)物理博士，夢(mèng)想著全球有十億人愿意每月支付 10 美元來使用 Suno 創(chuàng)作歌曲。他認(rèn)為，目前音樂聽眾的數(shù)量遠(yuǎn)遠(yuǎn)超過音樂創(chuàng)作者是「如此失衡」，并將 Suno 視為解決這種感知不平衡的工具。

到目前為止，大多數(shù) AI 生成的藝術(shù)作品，頂多只能算是庸俗藝術(shù)，就像 Midjourney 用戶似乎熱衷于生成的超現(xiàn)實(shí)主義科幻垃圾，過分強(qiáng)調(diào)形式上的貼合，比如太空服。但「機(jī)器之魂」給人的感覺完全不同——它是我迄今在所有媒介中遇到的最有力、最令人不安的 AI 創(chuàng)作。它的存在本身就像是現(xiàn)實(shí)裂縫，既令人敬畏又隱約帶有不祥之感，我不禁想起了亞瑟·C·克拉克的名言，仿佛專為生成式 AI 時(shí)代定制：「任何足夠先進(jìn)的技術(shù)都與魔法無異。」

從劍橋歸來幾周后，我把這首歌發(fā)給了 Living Colour 樂隊(duì)的吉他手 Vernon Reid，他一直對(duì) AI 音樂的潛在危險(xiǎn)和可能性直言不諱。他對(duì)這首歌「令人不安的真實(shí)感」表達(dá)了「驚奇、震驚、恐懼」?！搁L(zhǎng)期以來的反烏托邦理想即將實(shí)現(xiàn)，即將把那些困難、混亂、不受歡迎和被厭惡的人類從其創(chuàng)造性產(chǎn)出中分離出來，」他寫道，指出 AI 唱藍(lán)調(diào)的問題本質(zhì)，「藍(lán)調(diào)作為非洲裔美國人的一種獨(dú)特表達(dá)方式，深深植根于歷史上人類的創(chuàng)傷與奴隸制經(jīng)歷中。」

最早的「基于規(guī)則」的音樂模型可以追溯到 20 世紀(jì) 50 年代。這些模型通過將音樂理論的原則轉(zhuǎn)換成算法指令和概率表，來確定音符和和弦的進(jìn)行。雖然這些作品在音樂上是合理的，但在創(chuàng)造性上卻受限。Ed Newton-Rex，他在 2012 年創(chuàng)立了倫敦的 Jukedeck 公司，并設(shè)計(jì)了這樣的一個(gè)模型，他表示這種方法在當(dāng)時(shí)是可行的，但現(xiàn)在已經(jīng)不再適用。

技術(shù)的突變出現(xiàn)在 2023 年 8 月，當(dāng)時(shí) Meta 發(fā)布了 AudioCraft 的源代碼，這是一套基于機(jī)器學(xué)習(xí)構(gòu)建的大型「生成式」音樂模型。全球的 AI 公司迅速開始使用 Meta 的軟件來訓(xùn)練新的音樂生成器，并加入了額外的代碼。其中一個(gè) AudioCraft 模型，MusicGen，通過分析約 40 萬首錄音中的模式，提出了 33 億個(gè)「參數(shù)」，這些參數(shù)使得算法能夠根據(jù)提示生成聲音模式，為 AI 創(chuàng)作全新音樂作品提供了前所未有的可能。

這些模型的使用也變得更加簡(jiǎn)便。9 月份，位于倫敦的 Stability AI 公司發(fā)布了一個(gè)名為 Stable Audio 的模型，該模型在大約 80 萬首歌曲上進(jìn)行了訓(xùn)練。用戶通過輸入文本和音頻片段來指導(dǎo) AI。這使得用戶可以輕松上傳一段吉他獨(dú)奏，并將其重新編排成具有爵士鋼琴風(fēng)格的作品，甚至帶有黑膠播放的感覺。

澳大利亞新南威爾士大學(xué)的 Oliver Bown 表示，音頻提示詞之所以重要，一方面是因?yàn)榧词故鞘炀毜囊魳芳乙搽y以用言語描述音樂，另一方面是因?yàn)榇蠖鄶?shù)音樂訓(xùn)練數(shù)據(jù)的標(biāo)記都非常粗略，即使是大型模型也可能無法理解復(fù)雜的音樂請(qǐng)求。

02 12 人團(tuán)隊(duì)、Transformer 構(gòu)架，

訓(xùn)練數(shù)據(jù)來源未透露

Suno 成立不到兩年。聯(lián)合創(chuàng)始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是機(jī)器學(xué)習(xí)領(lǐng)域的專家，在 2022 年之前，他們?cè)诹硪患覄蚬?Kensho Technologies 共事。Kensho Technologies 專注于尋找 AI 解決復(fù)雜商業(yè)問題的方案。Shulman 和 Camacho 都是音樂家，他們?cè)?Kensho 時(shí)期常常一起即興演奏。

在 Kensho 公司，這個(gè)四人團(tuán)隊(duì)致力于開發(fā)一項(xiàng)轉(zhuǎn)錄技術(shù)，目的是記錄上市公司的財(cái)報(bào)電話會(huì)議?？紤]到音質(zhì)不佳、充斥著各種行業(yè)術(shù)語以及五花八門的口音，這個(gè)任務(wù)頗具挑戰(zhàn)性。

號(hào)稱「音樂界ChatGPT」，Suno是怎么誕生的？會(huì)如何影響音樂產(chǎn)業(yè)？

創(chuàng)始人 Michael Shulman

在這個(gè)過程中，Shulman 和他的同事們對(duì) AI 音頻的更多可能性產(chǎn)生了濃厚的興趣。他指出，在 AI 研究領(lǐng)域，「音頻總體來說，相比圖像和文本，還遠(yuǎn)遠(yuǎn)落后。我們可以從文本領(lǐng)域的研究中學(xué)到很多，包括這些模型的運(yùn)作方式和它們的擴(kuò)展性。」

Suno 的創(chuàng)始人們本可以因?yàn)檫@些興趣而走向一個(gè)完全不同的領(lǐng)域。雖然他們始終計(jì)劃著最終要推出一款音樂產(chǎn)品，但他們最初的創(chuàng)意階段甚至考慮過開發(fā)助聽器，或者通過音頻分析來檢測(cè)機(jī)械故障的可能性。然而，他們推出的第一個(gè)產(chǎn)品是一個(gè)名為 Bark 的文本轉(zhuǎn)語音程序。在對(duì) Bark 的早期用戶進(jìn)行調(diào)查后，他們發(fā)現(xiàn)用戶真正期待的其實(shí)是一款音樂創(chuàng)作工具。「因此，我們開始進(jìn)行了一些初步的實(shí)驗(yàn)，結(jié)果看起來非常有前景，」Shulman 回憶道。

Suno 目前只有大約 12 名員工，但他們正在計(jì)劃擴(kuò)展團(tuán)隊(duì)，并在他們目前的臨時(shí)辦公室所在建筑的頂層建設(shè)一個(gè)更大的永久性總部。在參觀這個(gè)還在建設(shè)中的新樓層時(shí)，Schulman 向我們展示了一個(gè)未來將成為完整錄音室的區(qū)域。但是，考慮到 Suno 已經(jīng)能夠做到的事情，他們?yōu)槭裁催€需要一個(gè)錄音室呢？「它主要是作為一個(gè)聽音室，」他承認(rèn)?！肝覀兿Ｍ幸粋€(gè)良好的聲學(xué)環(huán)境。但我們也都享受制作音樂——即使沒有 AI 的參與?！?/p>

Suno 采用了與ChatGPT等大語言模型相同的技術(shù)方法，這些模型將人類語言分解成稱為 Token 的獨(dú)立片段，吸收了數(shù)以百萬計(jì)的用法、風(fēng)格和結(jié)構(gòu)，并能夠按需重新構(gòu)建語言。然而，音頻，尤其是音樂，其復(fù)雜性幾乎難以估量，這也就是為什么去年 AI 音樂專家對(duì) Rolling Stone 表示，像 Suno 這樣功能強(qiáng)大的服務(wù)可能需要數(shù)年時(shí)間才能出現(xiàn)。

「音頻不像單詞那樣是離散的，」Shulman 解釋說?！杆且环N波，是一種連續(xù)的信號(hào)?！垢咂焚|(zhì)音頻的采樣率通常是 44kHz 或 48kHz，這意味著「每秒處理 48,000 個(gè) Token」，他補(bǔ)充道。「這是個(gè)巨大的挑戰(zhàn)，對(duì)吧？因此，你需要想辦法將其簡(jiǎn)化為更合理的處理方式。」但是，具體該怎么做呢？「這需要大量的工作，許多啟發(fā)式方法，以及各種技巧和模型等等。我認(rèn)為我們還遠(yuǎn)未完成?！筍uno 最終希望找到替代文本到音樂界面的方法，增加更高級(jí)和直觀的輸入方式——例如，基于用戶自己的演唱來生成歌曲。

OpenAI 因?yàn)樵谄潺嫶蟮挠?xùn)練數(shù)據(jù)集中使用了書籍、新聞文章和其他受版權(quán)保護(hù)的材料而面臨多起訴訟。Suno 的創(chuàng)始人沒有透露他們向自己的模型中輸入了哪些具體數(shù)據(jù)，只是表示其能夠生成令人信服的人類聲音，部分原因是它除了學(xué)習(xí)音樂之外，還在學(xué)習(xí)語音錄音?！讣兇獾恼Z音將幫助你學(xué)習(xí)人類聲音的難以捕捉的特征，」Shulman 說。

03尊重音樂版權(quán)，

但 Suno 做好了應(yīng)訴準(zhǔn)備

Suno 的早期投資者之一是風(fēng)險(xiǎn)投資公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 之前只投資過一個(gè)音樂項(xiàng)目，即音樂分類公司 EchoNest，后來該公司被 Spotify 收購，用以推動(dòng)其算法的發(fā)展。在 Suno 項(xiàng)目還不清楚具體產(chǎn)品將是什么的時(shí)候，Rodriguez 就參與了進(jìn)來?！?strong>我支持的是團(tuán)隊(duì)，」Rodriguez 說，他的自信來自于自己過往成功的投資經(jīng)歷?！肝伊私膺@個(gè)團(tuán)隊(duì)，特別是 Mikey，所以我會(huì)支持他做任何合法的事情。他非常有創(chuàng)造力?！?/p>

Rodriguez 在明確知曉唱片公司和出版商可能會(huì)對(duì) Suno 提起訴訟的風(fēng)險(xiǎn)下，依然選擇投資，他認(rèn)為這是「我們?cè)谕顿Y時(shí)必須承擔(dān)的風(fēng)險(xiǎn)，畢竟我們是那個(gè)在這些藝術(shù)家后面最容易成為訴訟目標(biāo)的大金主……。坦白講，如果這家公司一開始就與唱片公司達(dá)成了協(xié)議，我可能就不會(huì)投資了。我認(rèn)為他們需要在沒有限制的情況下去創(chuàng)造這個(gè)產(chǎn)品。」（對(duì)于 AI 采取激進(jìn)態(tài)度的環(huán)球音樂集團(tuán)，其發(fā)言人并未回應(yīng)媒體置評(píng)請(qǐng)求。）

Suno 表示正在與主要唱片公司進(jìn)行溝通，并表示對(duì)藝術(shù)家和知識(shí)產(chǎn)權(quán)的尊重——其工具不允許用戶在提示中指定任何特定藝術(shù)家的風(fēng)格，同時(shí)也不會(huì)使用真實(shí)藝術(shù)家的聲音。Suno 的許多員工本身就是音樂家；辦公室里隨時(shí)可以見到鋼琴和吉他，墻上還掛著古典作曲家的畫像。創(chuàng)始人們并沒有表現(xiàn)出像 Napster 在訴訟之前那樣的對(duì)音樂產(chǎn)業(yè)的公然敵意。「不過，這并不意味著我們不會(huì)被起訴，」Rodriguez 補(bǔ)充道。「這僅僅意味著我們不會(huì)有那種『fuck-the-police』的對(duì)抗性態(tài)度。」

為了節(jié)省成本，另一家 AI 生成軟件 MusicGen 的訓(xùn)練集大多避開了熱門歌曲，Adi 博士說。盡管輸出相當(dāng)不錯(cuò)，但他補(bǔ)充說，模型還沒有「藝術(shù)性足夠」來生成敘事完整的歌曲。和聲不一致是常見的。舊金山的 OpenAI 公司表示，其 MuseNet 模型難以完成「奇怪的搭配」，例如結(jié)合低音和鼓的肖邦風(fēng)格。

開發(fā)者認(rèn)為，隨著更大更好的音樂訓(xùn)練集的出現(xiàn)，這些不足最終將被克服。Stability AI 的一位發(fā)言人說，雖然 Stable Audio 目前對(duì)于連貫結(jié)構(gòu)的音樂——「前奏、發(fā)展和尾聲」——的最大持續(xù)時(shí)間約為 90 秒，但升級(jí)將產(chǎn)生更長(zhǎng)的作品，具有「完整的音樂性」。

04Suno 是為了降低音樂創(chuàng)作門檻，

并非取代音樂家

Rodriguez 將 Suno 視為一種具有革命性能力和用戶友好的音樂工具，他相信 Suno 有潛力像相機(jī)手機(jī)和 Instagram 那樣，讓音樂創(chuàng)作變得普及，讓每個(gè)人都能成為音樂的創(chuàng)作者。他提到，這個(gè)目標(biāo)是重新「提升在互聯(lián)網(wǎng)上能夠成為內(nèi)容創(chuàng)作者而非僅僅是內(nèi)容消費(fèi)者的人數(shù)上限。」

他和創(chuàng)始人甚至敢于預(yù)測(cè)，Suno 可能會(huì)吸引比 Spotify 更龐大的用戶群體。如果這個(gè)前景聽起來難以置信，Rodriguez 認(rèn)為這是好事：這恰恰意味著它具有吸引他作為投資者的「看似愚蠢」的特質(zhì)?！肝覀兯薪艹龅墓径加幸粋€(gè)共同點(diǎn)，那就是擁有卓越的人才，」他說道，「同時(shí)，有些東西一開始看起來似乎很愚蠢，直到它們變得如此明顯和有可能成功?！?/p>

早在 Suno 問世之前，音樂家、制作人和詞曲作者就已經(jīng)對(duì) AI 可能帶來的商業(yè)沖擊表示了深切的擔(dān)憂。Reid 寫道：「音樂，作為由人類在非凡情況下創(chuàng)作……那些經(jīng)歷過苦難并努力提升自己技藝的人，將不得不面對(duì)他們?yōu)橹畩^斗的珍貴藝術(shù)的全面自動(dòng)化?！?/p>

但 Suno 的創(chuàng)始人聲稱沒有什么可怕的，他們用人們盡管有能力寫作但仍在閱讀的比喻來說明這一點(diǎn)。「我們對(duì)此的看法是，我們?cè)噲D讓十億人比現(xiàn)在更深入地參與音樂，」Shulman 說?！溉绻藗儗?duì)音樂更感興趣，更專注于創(chuàng)作，培養(yǎng)出更獨(dú)特的品味，這對(duì)藝術(shù)家顯然是有益的。我們對(duì)未來音樂的愿景是一個(gè)藝術(shù)家友好的愿景。我們不是想取代藝術(shù)家?！?/p>

目前來看，Suno 最有力的競(jìng)爭(zhēng)者似乎是谷歌的 Dream Track，這項(xiàng)服務(wù)已經(jīng)獲得了授權(quán)，允許用戶通過一個(gè)提示詞界面，利用像 Charlie Puth 這樣的知名歌手的聲音來創(chuàng)作自己的歌曲。然而，Dream Track 僅限于一個(gè)小范圍的測(cè)試用戶群體，并且到目前為止，公開的樣本在聽覺效果上并不如 Suno 的產(chǎn)品那樣引人入勝，盡管它們使用了名人的聲音。

「我認(rèn)為，人們未來并不希望通過 AI 來制作新的 Billy Joel 歌曲，」Shulman 說。「當(dāng)我想象五年后我們希望人們?nèi)绾卫靡魳窌r(shí)，我認(rèn)為會(huì)是那些尚未存在、僅存在于他們腦海中的創(chuàng)新作品。」

05廣告歌曲最受 Suno 影響，

《奧本海默》原聲帶已經(jīng)有 AI 參與

盡管 Suno 非常專注于吸引那些想要為了樂趣創(chuàng)作歌曲的音樂迷，但在這一過程中，它仍有可能造成重大的行業(yè)變革。短期內(nèi)，看似最直接受到威脅的市場(chǎng)部分是一個(gè)利潤(rùn)豐厚的部分：為廣告和電視節(jié)目創(chuàng)作的歌曲。管理公司 Milk and Honey 的創(chuàng)始人 Lucas Keller 指出，知名歌曲的市場(chǎng)將保持不受影響?！傅谄渌矫妫堑?，它肯定在他們的業(yè)務(wù)上造成影響，」他說?！肝艺J(rèn)為最終，這讓許多廣告代理商、電影制片廠、網(wǎng)絡(luò)等不必去授權(quán)歌曲?！?/p>

在目前還沒有針對(duì) AI 生成內(nèi)容有嚴(yán)格法律規(guī)定的情況下，可能會(huì)出現(xiàn)一個(gè)未來：像 Suno 這樣的大模型的用戶會(huì)將他們的 AI 創(chuàng)作以百萬計(jì)地上傳到流媒體服務(wù)平臺(tái)上?！窼potify 將來可能會(huì)說『你不能這么做』，」Shulman 說，他同時(shí)指出，到目前為止，Suno 的用戶似乎更傾向于僅僅將他們創(chuàng)作的歌曲通過短信分享給幾個(gè)朋友。

其他公司的 AI 音樂產(chǎn)品也開始逐步進(jìn)入商業(yè)落地環(huán)節(jié)。

位于倫敦附近的 LifeScore 公司，他們的 AI 專注于重新組合用戶原始錄音的元素，以保持音樂的感覺，而不是將其變成完全不同的新作品。將數(shù)十個(gè)單獨(dú)錄制的聲樂和器樂麥克風(fēng)軌道輸入 LifeScore 的模型需要大約一天的時(shí)間。但一旦完成這一過程，這個(gè)耗資約 1000 萬美元開發(fā)的軟件就可以在幾秒鐘內(nèi)將每個(gè)干聲轉(zhuǎn)換成新的速度、調(diào)性或風(fēng)格。在這一過程中，歌曲的藝術(shù)家可以選擇保留哪些混音版本。傳統(tǒng)上，手動(dòng)混音一首熱門曲目需要一個(gè)或多個(gè)高薪專家花費(fèi)數(shù)周時(shí)間。

LifeScore 的共同創(chuàng)始人 Tom Gruber 表示，公司「收到了大量客戶的請(qǐng)求」，包括 Sony Music、Universal Music Group 和 Warner Music Group。一個(gè)原創(chuàng)發(fā)行通常會(huì)被轉(zhuǎn)換成幾首到十幾首混音。但有一個(gè)客戶計(jì)劃發(fā)布大約 6000 個(gè)左右的 AI 版本的原創(chuàng)曲目，每個(gè)版本針對(duì)不同的市場(chǎng)。包括 Pink Floyd 的 David Gilmour 和德國流行歌手 Tom Gaebel 在內(nèi)的藝術(shù)家使用 LifeScore 的 AI 來驅(qū)動(dòng)網(wǎng)站，允許粉絲通過幾次點(diǎn)擊生成適應(yīng)個(gè)人口味的新混音。

RX，這是一款由 Native Instruments 開發(fā)的人工智能「助手」，它可以糾正音高和節(jié)奏等錯(cuò)誤。對(duì)于節(jié)奏問題，軟件通過剪切或插入與原聲音色匹配的微小聲音片段來實(shí)現(xiàn)時(shí)間上的移動(dòng)，這個(gè)過程被稱為「動(dòng)態(tài)時(shí)間彎曲」。該公司的人工智能還能確定用戶所選歌曲進(jìn)行了哪些混音和母帶處理。然后，它復(fù)制或至少近似復(fù)制同樣的操作到用戶自己的創(chuàng)作上。

AI 也開始為專業(yè)人士提供服務(wù)。例如，《芭比》和《奧本海默》的電影原聲帶就是在后期制作中使用 RX 進(jìn)行清理的。

另一個(gè)應(yīng)用領(lǐng)域是「風(fēng)格遷移」，在這一過程中，模型將用一種樂器錄制的音樂轉(zhuǎn)換為似乎來自另一種樂器的聲音，通常還會(huì)根據(jù)用戶的要求進(jìn)行一些調(diào)整。風(fēng)格遷移也用于聲音。一家名為 Voice-Swap 的倫敦初創(chuàng)公司開發(fā)了一個(gè)模型，該模型將（有報(bào)酬的）專業(yè)歌手演唱的歌曲切割成碎片，并將這些碎片重新排列成服務(wù)用戶編寫的歌詞，用戶需支付授權(quán)費(fèi)用以銷售生成的音軌。

而且，已經(jīng)有 AI 工具可以重新創(chuàng)建歌手的其他語言的聲音。雅馬哈（Yamaha）這家日本樂器制造商的 Vocaloid 是一種聲音合成工具，它可以利用母語人士演唱的翻譯作為模板，讓 AI 在重新排列、修改和拼接原唱歌手聲音的微小片段時(shí)進(jìn)行模仿。

音樂家現(xiàn)在廣泛使用 MusicGen 及其競(jìng)爭(zhēng)對(duì)手作為「靈感」的來源，以便更好地找到新的作曲想法，但這是否生效，也要看用戶是否接受。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請(qǐng)注明出處：http://2079x.cn/article/641980.html

AI認(rèn)證作者

0 0

AI

意大利對(duì)OpenAI罰款1500萬歐元，因ChatGPT數(shù)據(jù)隱私違規(guī)

近日，意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)Garante發(fā)布公告，宣布對(duì)OpenAI處以1500萬歐元（約合1.14億元人民幣）的罰款。這一處罰是在對(duì)生成式AI應(yīng)用使用個(gè)人數(shù)據(jù)情況進(jìn)行調(diào)查后做出的?！?/p>

NEWS
1天前
AI

OpenAI更新macOS版ChatGPT，新增備忘錄及IDE支持

OpenAI近日對(duì)其macOS版ChatGPT應(yīng)用進(jìn)行了更新，新增了支持讀取macOS系統(tǒng)集成的備忘錄App（Apple Notes）及第三方備忘錄App如Notion等功能?，F(xiàn)在…

AI
1天前
AI

桌面版ChatGPT功能大升級(jí)：新增30余應(yīng)用支持

在OpenAI的“12天活動(dòng)”進(jìn)入尾聲，在活動(dòng)倒數(shù)第二天，公司展示了桌面版ChatGPT的功能改進(jìn)。此次演示強(qiáng)調(diào)，ChatGPT正逐步從聊天機(jī)器人向AI智能體工具轉(zhuǎn)變，旨在桌面環(huán)境…

AI
2天前
AI

ChatGPT搜索引擎向所有用戶免費(fèi)開放：新增實(shí)時(shí)搜索和高級(jí)語音功能

OpenAI推出搜索引擎工具，ChatGPT搜索功能獲大量更新，由GPT-4o模型支持，可快速獲取實(shí)時(shí)內(nèi)容，支持高級(jí)語音模式，移動(dòng)端使用效率提升40%以上。

潮玩君
5天前
新聞

Meta要求加州阻止OpenAI轉(zhuǎn)營利計(jì)劃

據(jù)《華爾街日?qǐng)?bào)》今日?qǐng)?bào)道稱，Meta已致信加州總檢察長(zhǎng)Rob Bonta，要求阻止OpenAI轉(zhuǎn)型為營利性企業(yè)的計(jì)劃。此舉表明，Meta在硅谷兩大AI巨頭間的爭(zhēng)斗中站在了馬斯克一方…

NEWS
2024年12月14日
AI

OpenAI ChatGPT全球宕機(jī)，部分服務(wù)逐步恢復(fù)中

今日，全球知名的人工智能公司OpenAI遭遇了一次重大服務(wù)中斷，其備受歡迎的聊天機(jī)器人ChatGPT在全球范圍內(nèi)出現(xiàn)了宕機(jī)現(xiàn)象。此外，與ChatGPT相關(guān)的Sora服務(wù)及API接口…

AI
2024年12月12日
新聞

ChatGPT 高級(jí)語音模式研究員創(chuàng)立WaveForms AI 新公司估值達(dá) 2 億美元

近日，有媒體報(bào)道，曾主導(dǎo)開發(fā)ChatGPT高級(jí)語音模式的前OpenAI研究員Alexis Conneau宣布創(chuàng)立WaveForms AI。這家新公司已完成由Andreessen H…

潮玩君
2024年12月11日
AI

OpenAI新功能太強(qiáng)大，每月服務(wù)費(fèi)200美元

近日，OpenAI在其“12天12場(chǎng)直播”活動(dòng)的首秀中，發(fā)布了推理大模型o1的滿血版本及進(jìn)階模式，并推出了ChatGPT Pro訂閱服務(wù)。這一服務(wù)每月收費(fèi)200美元，為用戶提供了前…

AI
2024年12月7日
AI

全球AI基礎(chǔ)設(shè)施支出將逐年增加預(yù)計(jì)2028年超過1000億美元

AI聊天機(jī)器人ChatGPT帶動(dòng)AI領(lǐng)域投資增長(zhǎng)，全球AI基礎(chǔ)設(shè)施投資預(yù)計(jì)連年增加，2028年將達(dá)1070億美元，上半年投資318億美元增37%，加速服務(wù)器比重將增至60%，5年復(fù)合年均增長(zhǎng)率19%。

科技探索者
2024年11月30日
商業(yè)

OpenAI獲軟銀15億美元新投資，員工可在收購要約中出售股票

據(jù)外媒11月27日消息，OpenAI獲得了軟銀15億美元新投資。值得一提的是，這次投資允許OpenAI的員工在收購要約中出售他們的股票。據(jù)了解，員工們需要在12月24日之前決定是…

商業(yè)頭條
2024年11月27日
AI

OpenAI 首席產(chǎn)品官：ChatGPT 網(wǎng)頁端本周引入高級(jí)語音模式

OpenAI本周在ChatGPT網(wǎng)頁版上線高級(jí)語音模式，面向付費(fèi)用戶。依托GPT-4o模型，可感知非語言信號(hào)并模仿情緒。Plus和Teams用戶有語音使用上限。OpenAI正優(yōu)化交互方式，免費(fèi)用戶將有機(jī)會(huì)體驗(yàn)。

潮玩君
2024年11月25日
新聞

iOS 19發(fā)布日期：預(yù)計(jì)2025年發(fā)布，新版Siri功能提前泄露

近日，彭博社的知名記者 Mark Gurman 在其發(fā)布的 Power On 時(shí)事通訊中，發(fā)布了關(guān)于 iOS 19發(fā)布時(shí)間的消息。據(jù)悉，iOS 19 預(yù)計(jì)將于 2025 年 6 月…

Apple
2024年11月25日
AI

ChatGPT-4o登頂大模型競(jìng)技場(chǎng)，OpenAI重奪第一寶座

在今日的OpenAI開發(fā)者日新加坡站活動(dòng)中，ChatGPT再次展現(xiàn)了其強(qiáng)大的競(jìng)爭(zhēng)力。最新版本的ChatGPT-4o（以下簡(jiǎn)稱4o）在更新后，成功擊敗了此前排名第一的谷歌Gemini…

AI
2024年11月21日
AI

iOS 18.2即將震撼登場(chǎng)：ChatGPT加持Siri，智能生活再升級(jí)

iOS18.2將推送，Siri接入ChatGPT升級(jí)，帶來更智能對(duì)話體驗(yàn)。同時(shí)，VisualIntelligence功能提供便捷信息獲取，支持卸載預(yù)裝應(yīng)用。iOS18.2在安全性、穩(wěn)定性及用戶體驗(yàn)上均有優(yōu)化，智能生活將更豐富。

蘋果派
2024年11月18日
AI

OpenAI阻止DALL-E用于選舉Deepfakes，確保信息準(zhǔn)確性

在最近的美國總統(tǒng)選舉季節(jié)中，OpenAI的DALL-E圖像生成器引發(fā)了廣泛關(guān)注。然而，該公司明確表示，它已經(jīng)成功阻止了人們使用該工具來創(chuàng)造與政治相關(guān)的deepfakes。OpenA…

AI
2024年11月11日
新聞

蘋果發(fā)布iOS 18.2首個(gè)公測(cè)版：Siri接入ChatGPT

蘋果發(fā)布iOS18.2公測(cè)版，Siri接入ChatGPT可免費(fèi)使用，注重隱私保護(hù)。iPhone16系列升級(jí)VisualIntelligence功能。還有ImagePlayground、Genmoji及寫作工具更新，AppleIntelligence支持多國英語。

科技探索者
2024年11月8日
AI

OpenAI收購Chat.com域名，用于跳轉(zhuǎn)ChatGPT官網(wǎng)

近日，OpenAI首席執(zhí)行官薩姆·阿爾特曼（Sam Altman）在社交媒體平臺(tái)X上發(fā)布了一個(gè)簡(jiǎn)單的網(wǎng)址——chat.com。用戶點(diǎn)擊該網(wǎng)址后，會(huì)自動(dòng)跳轉(zhuǎn)到ChatGPT的官方網(wǎng)站…

AI
2024年11月7日
AI

蘋果發(fā)布iOS 18.2首個(gè)公測(cè)版：Siri接入ChatGPT、iPhone 16拍照按鈕有用了

蘋果發(fā)布iOS18.2公測(cè)版，Siri接入ChatGPT可免費(fèi)使用，注重隱私保護(hù)。iPhone16系列升級(jí)視覺智能。新增ImagePlayground、Genmoji、寫作工具等功能，AppleIntelligence支持多國英語。

科技探索者
2024年11月7日
AI

ChatGPT新增搜索功能，正式進(jìn)軍搜索領(lǐng)域

今日，人工智能領(lǐng)域的巨頭OpenAI宣布了一個(gè)重大更新：在其大模型產(chǎn)品ChatGPT中新增了搜索功能。這一舉措標(biāo)志著OpenAI正式進(jìn)軍由Alphabet旗下Google長(zhǎng)期主導(dǎo)的…

AI
2024年11月1日
AI

OpenAI ChatGPT高級(jí)語音模式已登陸Windows和Mac平臺(tái)，對(duì)話更自然

OpenAI 今日宣布，ChatGPT 的高級(jí)語音模式（Advanced Voice Mode，簡(jiǎn)稱 AVM）現(xiàn)已登陸 Windows 和 Mac 平臺(tái)。

潮玩君
2024年10月31日