「我現(xiàn)在 100% 確信 Miqu 與 Perplexity Labs 上的 Mistral-Medium 是同一個模型?!?/p>
近日,一則關(guān)于「Mistral-Medium 模型泄露」的消息引起了大家的關(guān)注。
泄露傳聞與一個名為「Miqu」的新模型有關(guān),在評估語言模型情商的基準(zhǔn)?EQ-Bench(EQ-Bench 與 MMLU 的相關(guān)性約為 0.97、與 Arena Elo 的相關(guān)性約為 0.94)上, Miqu 直接吊打了除 GPT-4 之外的所有大模型,而且它的得分與 Mistral-Medium 非常接近:
圖源:https://x.com/N8Programs/status/1752441060133892503?s=20
開源地址:https://huggingface.co/miqudev/miqu-1-70b
這么強(qiáng)大的模型,項目的發(fā)布者卻是一位神秘人士:
有人問「who made you」, Miqu 直接自報家門:「I was created by the Mistral Al team.」
有人分別向兩個模型發(fā)送了同一道測試問題,收到的回答都是用俄語表達(dá)的。測試者加深了懷疑:「它似乎知道標(biāo)準(zhǔn)謎題,但如果是惡作劇者,根本不可能將其調(diào)整為同樣用俄語回答?!?/p>
在翻譯過程中,表述也近乎相同。
Miqu 到底來自何方?它真的是 Mistral-Medium 嗎?
在持續(xù)兩天的熱議中,多位開發(fā)者針對兩個模型做了對比,對比的結(jié)果指向以下幾種可能性:
1、Miqu 就是 Mistral-Medium;
2、Miqu 確實(shí)是來自 MistralAI 的一個模型,但是是一些早期的 MoE 實(shí)驗(yàn)版本或其他版本;
3、Miqu 是 Llama2 的微調(diào)版本。
在前面,我們介紹了支持第一種可能性的開發(fā)者給出的理由。隨著事件的發(fā)酵,更多開發(fā)者投入了解密一般的行動中,對兩個模型進(jìn)行了更深入的測試。一位 reddit 網(wǎng)友熬夜肝出的測試表明,Miqu 更像是 MistralAI 模型的早期版本。
這位開發(fā)者將模型應(yīng)用于四個專業(yè)的德語在線數(shù)據(jù)保護(hù)培訓(xùn) / 考試中。測試數(shù)據(jù)、問題及所有指令都是用德語進(jìn)行的,而字符卡是英語的。這可以測試翻譯能力和跨語言理解能力。
具體測試方法如下:
- 在提供信息之前,用德語指示模型:「我將給你一些信息,請注意這些信息,但回答時只需用『OK』來確認(rèn)你已理解,不要多說其他的。」這是為了測試模型對指令的理解和執(zhí)行能力。
- 在提供話題的所有信息后,向模型提出考題。這是一個選擇題(A/B/C),其中第一個問題和最后一個問題相同,但選項順序和字母(X/Y/Z)被更改。每次測試包含 4-6 個考題,總共 18 個多項選擇題。
- 根據(jù)模型給出的正確答案數(shù)量來進(jìn)行排名,首先考慮的是在提供了課程信息后的答案,其次是在沒有提前提供信息的情況下盲目回答的答案,以應(yīng)對平局情況。所有測試都是獨(dú)立的單元,每次測試之間會清除上下文,各個會話之間不保留任何記憶或狀態(tài)。
詳細(xì)測試報告如下:
miqudev/miqu-1-70b GGUF Q5_K_M,32K 上下文, Mistral 格式:只對 4+4+4+5=17/18 道選擇題給出了正確答案。沒有先前的信息,只回答問題,給出正確答案:4+3+1+5=13/18。沒有按照說明用 “OK” 確認(rèn)數(shù)據(jù)輸入。
在測試過程中,開發(fā)者發(fā)現(xiàn) Miqu 與 Mixtral 有許多相似之處:出色的德語拼寫和語法雙語;在回復(fù)中添加翻譯;在回復(fù)中添加注釋和評論。
不過,在這位開發(fā)者的測試中,Miqu 與 Mixtral-8x7B-Instruct-v0.1(4-bit)相比表現(xiàn)要差一些,仍優(yōu)于 Mistral Small 和 Medium。但它并不比 Mixtral 8x7B Instruct 好得多。這位開發(fā)者猜測,Miqu 可能是泄露的 MistralAI 模型,是一個較舊的,可能是概念驗(yàn)證模型。
這是我們目前看到的支持第二種說法的最詳細(xì)的測試。
不過,也有開發(fā)者認(rèn)為,Miqu 和 MistralAI 沒有關(guān)系,反而更像 Llama 70B,因?yàn)槠浼軜?gòu)與 Llama 70B「完全相同」,「不是專家混合模型」。
同樣地,也有人測試之后發(fā)現(xiàn),Miqu 的確更像 Llama:
但從得分差距來看,Miqu 和 Llama 70B 顯然又不是同一個模型。
所以,有人總結(jié),要么 Miqu 是 Llama 微調(diào)版本,要么是 Mistral-Medium 的早期版本:
前者為真的話,Miqu 可能是在 Mistral-Medium 數(shù)據(jù)集上微調(diào)的 Llama 70B:
假如后者為真,Miqu 只是 Mistral API 的蒸餾,這或許將是「美國偽造登月」級別的鬧?。?/p>
最后一個問題,泄露者是誰?
根據(jù)很多 X 平臺用戶提供的線索,這次疑似泄露的模型最初是發(fā)在一個名叫 4chan 的網(wǎng)站上的。這個網(wǎng)站是一個完全匿名的實(shí)時消息論壇,用戶不需要注冊就能就可以發(fā)表圖文言論。
當(dāng)然,這些結(jié)論均屬主觀想法。對于所有的 AI 研究者來說,這波劇情需要一個「真相」來終結(jié)。
參考鏈接:https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/
本文轉(zhuǎn)載自:機(jī)器之心,不代表科技訊之立場。原文鏈接:https://www.jiqizhixin.com/articles/2024-01-31-6