機(jī)器之心報(bào)道
編輯:蛋醬大語(yǔ)言模型的競(jìng)爭(zhēng)激烈,待在排行榜的第一位就要有成為眾矢之的的覺(jué)悟。
(相關(guān)資料圖)
說(shuō)到開(kāi)源的大語(yǔ)言模型,由 Meta 打造的 650 億參數(shù)模型 LLaMA 曾經(jīng)風(fēng)頭無(wú)兩。
但這種一枝獨(dú)秀的格局在上個(gè)月被打破了:5 月底,阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所(TII)開(kāi)源了一個(gè) 400 億參數(shù)的因果解碼器模型「Falcon-40B」,據(jù)介紹,該模型在 RefinedWeb 的 1 萬(wàn)億個(gè) token 上進(jìn)行了訓(xùn)練,并使用精選數(shù)據(jù)集增強(qiáng)。
剛一發(fā)布,「Falcon-40B」就沖上了 Huggingface 的 OpenLLM 排行榜首位,「碾壓」了參數(shù)規(guī)模 1.5 倍的「LLaMA-65B」,也優(yōu)于 MPT、RedPajama 和StableLM 等開(kāi)源大模型。
后來(lái),F(xiàn)alcon-40B Instruct 版本占據(jù)了 Huggingface 的 OpenLLM 排行榜首位。目前,F(xiàn)alcon-40B 排在第三位,而 LLaMA-65B 已經(jīng)掉到了第六位。
HuggingFace 排行榜:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
但 Falcon 模型自從開(kāi)源的那一天起,就背負(fù)著眾多的爭(zhēng)議。
首先,從不差錢的阿聯(lián)酋 TII 表示Falcon-40B 可以直接商用。這本來(lái)確實(shí)是難得的福利,但 Falcon-40B 遵循的協(xié)議是「TII Falcon LLM License」,有人。
與 Apache License 2.0 開(kāi)源許可對(duì)比,二者的相似之處在于都授予使用、修改和分發(fā)許可作品的廣泛許可,要求在分發(fā)中包含許可文本和歸屬,并具有責(zé)任限制、擔(dān)保豁免權(quán),而區(qū)別在于 TII Falcon LLM License 要求一旦達(dá)到收入門檻,需支付商業(yè)用途特許權(quán)使用費(fèi),而大多數(shù)開(kāi)源許可不需要。TII Falcon LLM License 對(duì)如何發(fā)布或分發(fā)作品也有額外限制, 比如要求歸屬于「Falcon LLM technology from the Technology Innovation Institute」。此外,TII Falcon LLM License 對(duì)修改源代碼和目標(biāo)代碼都有額外的要求,除非分發(fā)編譯的模型。
總之,該許可允許開(kāi)放使用和修改,但同時(shí)又保留了很多自有權(quán)利。
還有一個(gè)爭(zhēng)議的點(diǎn),為什么在 HuggingFace 的 Open LLM 排行榜上,LLaMA-65B 的 MMLU 這項(xiàng)分?jǐn)?shù)是 48.8,明顯低于官方數(shù)據(jù) 63.4?包括 Karpathy 本人,也因?yàn)檫@點(diǎn)疑惑而從未對(duì) Falcon 模型給予任何評(píng)價(jià)。
圖中數(shù)據(jù)來(lái)源:https://arxiv.org/pdf/2302.13971.pdf
我們知道,HuggingFace 使用的是「Eleuther AI Language Model Evaluation Harness」語(yǔ)言模型評(píng)估基準(zhǔn)。如此巨大的分?jǐn)?shù)差異,會(huì)與 HuggingFace 平臺(tái)使用的測(cè)評(píng)基準(zhǔn)有關(guān)系嗎?
個(gè)中原因?yàn)楹?,這很難評(píng)。但昨天,一項(xiàng)關(guān)于 LLaMA-65B 的測(cè)評(píng)獲得了一波來(lái)自 AI 大神的「圍觀」。
愛(ài)丁堡大學(xué)博士生符堯在推特上表示:「Falcon 真的比 LLaMA 好嗎?簡(jiǎn)而言之:可能不會(huì)?!?
他們?cè)?MMLU 上重現(xiàn)了 LLaMA 65B eval,得到的分?jǐn)?shù)是 61.4,比較接近官方數(shù)字(63.4),明顯高于其 Open LLM Leaderboard 分?jǐn)?shù) 48.8,且遠(yuǎn)高于 Falcon-40B 的 Leaderboard 分?jǐn)?shù) 52.7。
沒(méi)有花哨的 prompt 工程和解碼,一切都是在默認(rèn)設(shè)置下進(jìn)行的。
這次測(cè)評(píng)引起了大家的持續(xù)討論,畢竟這也是大家持續(xù)疑惑的問(wèn)題。
作為 Meta AI 的首席科學(xué)家,Yann LeCun 也轉(zhuǎn)發(fā)了這條內(nèi)容:「測(cè)試腳本問(wèn)題……」
符堯本人表示,他們也正在測(cè)評(píng) Falcon-40B,以驗(yàn)證其實(shí)際表現(xiàn)是否接近 52.7 的公開(kāi)分?jǐn)?shù)。
也有研究者表示:「很高興看到開(kāi)源社區(qū)能夠快速自我糾正。對(duì)于 LLaMa 大于 10% 的 MMLU 分?jǐn)?shù)差異,我也感到非常困惑?!?
「Falcon 是一項(xiàng)好工作,更好的許可、更快生成的 MQA 等等…… 但考慮到數(shù)據(jù)、參數(shù)和計(jì)算,如此大幅優(yōu)于 LLaMA 確實(shí)說(shuō)不通。等待 Yao 的 Falcon 測(cè)評(píng)結(jié)果,我敢打賭它比 llama-65b 更差?!?
這個(gè)故事至少啟示了人們一個(gè)道理:盡管任何一個(gè)大模型的開(kāi)源,對(duì)于學(xué)界和業(yè)界來(lái)說(shuō)都是好消息。但與此同時(shí),研究者們也需要更加謹(jǐn)慎。
「每當(dāng)我的同事實(shí)施一個(gè)指標(biāo)時(shí),我立即詢問(wèn)他們是否真的檢查了官方代碼的復(fù)現(xiàn),如果沒(méi)有,則丟棄他們的結(jié)果?!?
而且從現(xiàn)狀來(lái)看,不管是 Falcon 還是 LLaMa,開(kāi)源大語(yǔ)言模型的天花板都與 GPT-4 相距甚遠(yuǎn),而 Falcon 和 LLaMa 都算是開(kāi)源領(lǐng)域的重要力量,應(yīng)該是一種良性競(jìng)爭(zhēng)、共同進(jìn)步的關(guān)系。
正如符堯在推特中指出的:「我們不打算在 LLaMA 和 Falcon 之間挑起戰(zhàn)爭(zhēng) —— 兩者都是偉大的開(kāi)源模型,并為該領(lǐng)域做出了重大貢獻(xiàn)!Falcon 還具有更簡(jiǎn)單的許可證優(yōu)勢(shì),這也賦予了它強(qiáng)大的潛力!」
?THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
標(biāo)簽:
(相關(guān)資料圖)





