无码中文字幕av免费放

斯坦福團(tuán)隊(duì)被曝抄襲清華系大模型,已刪庫(kù)跑路

金磊 西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

家人們,大模型圈兒出了個(gè)驚天大瓜

——

斯坦福AI團(tuán)隊(duì),竟然曝出了抄襲事件,而且抄襲的還是中國(guó)國(guó)產(chǎn)的大模型成果——模型結(jié)構(gòu)和代碼,幾乎一模一樣!跟任何抄襲事故一樣……AI圈內(nèi)都驚呆了。

斯坦福的這項(xiàng)研究叫做Llama3-V,是于5月29日新鮮發(fā)布,宣稱只需要500美元就能訓(xùn)出一個(gè)SOTA多模態(tài)大模型,比GPT-4V、Gemini Ultra、Claude Opus都強(qiáng)。

Llama3-V的3位作者或許是擁有名校頭銜加持,又有特斯拉、SpaceX的大廠相關(guān)背景,這個(gè)項(xiàng)目短短幾天就受到了不小的關(guān)注。

甚至一度沖上了HuggingFace趨勢(shì)榜首頁(yè):

然而,戲劇性的一幕開(kāi)始上演了。

有位細(xì)心的網(wǎng)友發(fā)現(xiàn),咦?這“配方”怎么如此的熟悉?

然后他定睛一看,好家伙,這不就是MiniCPM-Llama3-V 2.5(出自清華系明星創(chuàng)業(yè)公司面壁智能)嘛。

于是這位網(wǎng)友便跑到面壁智能GitHub項(xiàng)目下開(kāi)始爆料了:

你們家大模型被斯坦福團(tuán)隊(duì)抄襲了!

并且他還附上了一堆的證據(jù),最直接的莫過(guò)于這張2個(gè)模型代碼的對(duì)比圖了:

Emmm……用這位網(wǎng)友的話來(lái)說(shuō)就是:

模型結(jié)構(gòu)、代碼、配置文件,簡(jiǎn)直一模一樣,只是變量名變了而已。

至于為什么這位網(wǎng)友要跑到面壁智能GitHub項(xiàng)目下面留言,是因?yàn)樗耙呀?jīng)給Llama3-V作者留過(guò)言了,但斯坦福團(tuán)隊(duì)的做法竟是刪庫(kù)跑路……

沒(méi)錯(cuò),現(xiàn)在不論是GitHub還是HuggingFace,統(tǒng)統(tǒng)都是404

并且這事現(xiàn)在還在持續(xù)發(fā)酵的過(guò)程中,網(wǎng)上吃瓜的群眾也是越來(lái)越多。

那么我先來(lái)一同回顧一下這件drama事情的始末。

“代碼和架構(gòu)一模一樣”

正如剛才所述,一個(gè)網(wǎng)友爆料Llama3-V抄襲MiniCPM-Llama3-V 2.5,跑到面壁智能的GitHub主頁(yè)提醒團(tuán)隊(duì)注意,并把關(guān)鍵證據(jù)都一一截圖列舉整理了下來(lái),這才有了整個(gè)抄襲門(mén)的還原現(xiàn)場(chǎng)。

以下是來(lái)自這位網(wǎng)友的證據(jù)。

證據(jù)一,Llama3-V的模型架構(gòu)和代碼與MiniCPM-Llama3-V 2.5幾乎完全相同:

看下面的例子,配置文件就改了圖像切片、分詞器、重采樣器和數(shù)據(jù)加載等格式化和變量名:

Llama3-V作者表示參考了LLaVA-UHD架構(gòu),在ViT和LLM等選擇上有一些差異。但實(shí)際上,網(wǎng)友發(fā)現(xiàn)他們的具體實(shí)現(xiàn)在空間模式等很多方面都與LLaVA-UHD不同,卻出奇與MiniCPM-Llama3-V 2.5一致。

甚至,Llama3-V還用了MiniCPM-Llama3-V 2.5的分詞器,連MiniCPM-Llama3-V 2.5定義的特殊符號(hào)都能“巧合”實(shí)屬離譜。

證據(jù)二,網(wǎng)友質(zhì)疑Llama3-V作者是如何在MinicPM-Llama3-V2.5項(xiàng)目發(fā)布之前就使用上MinicPM-Llama3-V2.5分詞器的。

Llama3-V作者給的回復(fù)是這樣?jì)饍旱模f(shuō)是用的面壁智能上一代MinicPM-V-2項(xiàng)目的:

但事實(shí)卻是,HuggingFace中,MiniCPM-V2與MiniCPM-Llama3-V 2.5分詞器分別是兩個(gè)文件,文件大小也完全不同。

MiniCPM-Llama3-V 2.5的分詞器是用Llama3分詞器加上MiniCPM-V系列模型的特殊token組成,而MiniCPM-V2的發(fā)布都在Llama3開(kāi)源之前,怎么會(huì)有Llama3分詞器。

證據(jù)三,Llama3-V作者隨后無(wú)故刪除了網(wǎng)友在Llama3-V頁(yè)面上提交的質(zhì)疑他們抄襲的問(wèn)題。

而且,他們似乎對(duì)MiniCPM-Llama3-V 2.5架構(gòu)或他們自己的代碼都不完全了解。

感知器重采樣器(Perceiver resampler)是單層交叉注意力,而不是雙層自注意力。但是下圖所示Llama3-V的技術(shù)博客里作者的理解很明顯是錯(cuò)的。

SigLIP的Sigmoid激活也不用于訓(xùn)練多模態(tài)大語(yǔ)言模型,而僅用于預(yù)訓(xùn)練SigLIP。

視覺(jué)特征提取不需要Sigmoid激活:

基于以上三點(diǎn)事實(shí),這位網(wǎng)友認(rèn)為足以證據(jù)證明Llama3-V項(xiàng)目竊取了MiniCPM-Llama3-V 2.5項(xiàng)目的學(xué)術(shù)成果。

但還沒(méi)完,他隨后又補(bǔ)充了兩點(diǎn)證據(jù)。

幾天前,當(dāng)這位網(wǎng)友嘗試運(yùn)行Llama3-V時(shí),發(fā)現(xiàn)他們提供的代碼無(wú)法與HuggingFace的checkpoint一起使用,反饋問(wèn)題沒(méi)有得到作者回復(fù)。

于是網(wǎng)友把從HuggingFace下載的Llama3-V模型權(quán)重中的變量名改成了MiniCPM-Llama3-V 2.5的,驚奇發(fā)現(xiàn)模型居然可以用MiniCPM-V代碼成功運(yùn)行。

此外,如果將高斯噪聲(由單個(gè)標(biāo)量參數(shù)化)添加到MiniCPM-Llama3-V 2.5的checkpoint,結(jié)果就是會(huì)得到一個(gè)行為與Llama3-V極其相似的模型。

收到網(wǎng)友的提醒后,MiniCPM-Llama3-V 2.5團(tuán)隊(duì)這邊也迅速展開(kāi)了調(diào)查,他們按照網(wǎng)友的在GitHub上的說(shuō)明,使用 Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代碼和配置文件正確獲取了推理結(jié)果。

于是,一個(gè)更為關(guān)鍵性的證據(jù)出現(xiàn)了。

Llama3-V在一些未公開(kāi)的實(shí)驗(yàn)性特征上表現(xiàn)出與MiniCPM-Llama3-V 2.5高度相似的行為,而這些特征是根據(jù)MiniCPM-Llama3-V 2.5團(tuán)隊(duì)內(nèi)部數(shù)據(jù)訓(xùn)練的。

例如,識(shí)別清華簡(jiǎn)!

MiniCPM-Llama3-V 2.5特有的功能之一是識(shí)別清華簡(jiǎn),這是一種非常罕見(jiàn)、于戰(zhàn)國(guó)時(shí)期寫(xiě)在竹子上的中國(guó)古代文字。

訓(xùn)練圖像是從最近出土的文物中掃描出來(lái)的,由MiniCPM-Llama3-V 2.5團(tuán)隊(duì)進(jìn)行了標(biāo)注,尚未公開(kāi)發(fā)布。

而Llama3-V的識(shí)別情況和MiniCPM-Llama3-V 2.5極為相似。

識(shí)別錯(cuò)誤的情況竟也出奇一致:

MiniCPM-Llama3-V 2.5團(tuán)隊(duì)還在1000 張竹簡(jiǎn)圖像上測(cè)試了幾種基于Llama3的視覺(jué)-語(yǔ)言模型,并比較了每對(duì)模型的預(yù)測(cè)精確匹配。

結(jié)果,每?jī)蓚€(gè)模型之間的重疊為零,而Llama3-V和MiniCPM-Llama3-V 2.5之間的&&重疊達(dá)到了驚人的87%**。

此外,MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的錯(cuò)誤分布。Llama3-V和MiniCPM-Llama3-V 2.5分別做出 236和194個(gè)錯(cuò)誤預(yù)測(cè),重疊部分為182個(gè)。

且按照網(wǎng)友在GitHub上的指令獲得的MiniCPM-Llama3-V2.5-noisy顯示出與Llama3-V幾乎相同的定量結(jié)果,真令人匪夷所思……

在另一個(gè)MiniCPM-Llama3-V 2.5內(nèi)部數(shù)據(jù)上訓(xùn)練的未公開(kāi)功能——WebAgent上,也出現(xiàn)了同樣的情況。

Llama3-V甚至和MiniCPM-Llama3-V 2.5團(tuán)隊(duì)新定義的WebAgent模式中犯的錯(cuò)誤都一樣。

鑒于這些結(jié)果,MiniCPM-Llama3-V 2.5團(tuán)隊(duì)表示很難將這種不尋常的相似性解釋為巧合,希望Llama3-V作者能對(duì)這個(gè)問(wèn)題給出一個(gè)正式的解釋。

斯坦福團(tuán)隊(duì)已刪庫(kù)跑路

雖然斯坦福的2位本科生已經(jīng)下架了幾乎所有與之相關(guān)的項(xiàng)目,但其實(shí)在此之前,他們最初在面對(duì)質(zhì)疑的時(shí)候還是做出了些許的解釋。

例如他們強(qiáng)調(diào),Llama3-V這項(xiàng)工作的時(shí)間是要早于面壁智能的MiniCPM,只是使用了他們的tokenizer。

不過(guò)作者對(duì)Medium上的聲明還是做了保留:

非常感謝那些在評(píng)論中指出與之前研究相似之處的人。

我們意識(shí)到我們的架構(gòu)非常類似于OpenBMB的“MiniCPM-Llama3-V 2.5,他們?cè)趯?shí)現(xiàn)上比我們搶先一步。

我們已經(jīng)刪除了關(guān)于作者的原始模型。

對(duì)此,一部分網(wǎng)友表示,既然選擇刪掉項(xiàng)目,那么就表示確實(shí)存在一定的問(wèn)題。

不過(guò)另一方面,對(duì)于抄襲這事也有不一樣的聲音——

MiniCPM-Llama3-V 2.5不也是在Llama3的基礎(chǔ)上做的改良嗎?不過(guò)連tokenizer都直接拿來(lái)用就應(yīng)該不算是借鑒了。

而就在剛剛,另一個(gè)戲劇性的事情發(fā)生了。

斯坦福的作者在中午時(shí)間做出了最新的回應(yīng):

但現(xiàn)在……這條回應(yīng)又刪掉了

而面壁智能這邊,CEO李大海也做出了正式回應(yīng):

原標(biāo)題:斯坦福團(tuán)隊(duì)被曝抄襲清華系大模型,已刪庫(kù)跑路,創(chuàng)始人回應(yīng):也算國(guó)際認(rèn)可


相關(guān)內(nèi)容