改款DeepSeek,亂了華為心態(tài)
文源:源Byte
作者:柯基的柯
當(dāng)技術(shù)參數(shù)的相關(guān)性飆到0.927,行業(yè)直接炸了。
近期,有研究團(tuán)隊(duì)在GitHub上公開(kāi)比對(duì)數(shù)據(jù),指出華為盤(pán)古ProMoE與阿里Qwen-2.5 14B參數(shù)結(jié)構(gòu)高度雷同,居然高達(dá)0.927,超過(guò)業(yè)內(nèi)正常范圍(通常低于0.7)。華為盤(pán)古團(tuán)隊(duì)迅速回應(yīng),強(qiáng)調(diào)其模型基于昇騰硬件優(yōu)化,屬于“殊途同歸”,向來(lái)在輿論場(chǎng)上不輸陣仗的阿里,卻意外保持沉默。
截圖來(lái)源于諾亞方舟實(shí)驗(yàn)室公號(hào)
無(wú)獨(dú)有偶,就在上個(gè)月,月之暗面的Kimi-Dev-72B憑借60.4%的測(cè)試成績(jī)驚艷亮相,因“Basemodel:Qwen2.5-72B”的標(biāo)注被貼上“套殼”標(biāo)簽陷入爭(zhēng)議。就在開(kāi)發(fā)者們爭(zhēng)論不休之時(shí),外界發(fā)現(xiàn)“受害者”依舊是阿里,不禁發(fā)出如此疑問(wèn):這是微調(diào)技術(shù)的勝利,還是原創(chuàng)性匱乏的遮羞布?
而曾被寄予厚望的DeepSeek R2,遲遲未能面世,這款有望繼續(xù)對(duì)世界頂級(jí)大模型持續(xù)施壓的模型長(zhǎng)期“跳票”,一定程度助推了國(guó)產(chǎn)大模型的技術(shù)標(biāo)準(zhǔn)“失焦”。
在一片R2“狼來(lái)了”的聲音中,市場(chǎng)似乎在等待中逐漸失去耐心,正在讓國(guó)產(chǎn)大模型的競(jìng)爭(zhēng),從技術(shù)比拼滑向資源內(nèi)耗。
01 參數(shù)之爭(zhēng)背后的技術(shù)迷局
華為盤(pán)古ProMoE與阿里Qwen-2.5 14B的“0.927相似度”,直接剖開(kāi)了大模型研發(fā)的黑箱。
研究團(tuán)隊(duì)通過(guò)比對(duì)注意力參數(shù)分布,發(fā)現(xiàn)兩者結(jié)構(gòu)相似性遠(yuǎn)超行業(yè)常態(tài)。華為堅(jiān)稱(chēng)其模型基于昇騰硬件優(yōu)化,屬于“異構(gòu)架構(gòu)的殊途同歸”;阿里則保持沉默,但開(kāi)源社區(qū)已涌現(xiàn)對(duì)代碼復(fù)用合規(guī)性的質(zhì)疑。
然而,技術(shù)細(xì)節(jié)的爭(zhēng)議很快滑向商業(yè)博弈的泥潭。
盤(pán)古團(tuán)隊(duì)緊急發(fā)布技術(shù)白皮書(shū),強(qiáng)調(diào)其MoE架構(gòu)的專(zhuān)利布局;阿里則加速推進(jìn)Qwen-3.0迭代,似乎在用版本升級(jí)對(duì)沖輿論風(fēng)險(xiǎn)。一位不愿具名的芯片工程師透露:“參數(shù)結(jié)構(gòu)的趨同,本質(zhì)上是算力軍備競(jìng)賽下的技術(shù)妥協(xié)。”
開(kāi)發(fā)者社區(qū)并不買(mǎi)賬,用戶(hù) @HonestAGI 通過(guò) “LLM 指紋” 技術(shù)反向驗(yàn)證,結(jié)果與原始研究高度吻合。技術(shù)趨同是否等同于抄襲?這一問(wèn)題在開(kāi)源社區(qū)引發(fā)激烈辯論。
支持華為的聲音認(rèn)為,大模型領(lǐng)域的技術(shù)重疊難以避免,關(guān)鍵在于優(yōu)化和落地。昇騰生態(tài)的擁躉特別指出,盤(pán)古的動(dòng)態(tài)專(zhuān)家網(wǎng)絡(luò)設(shè)計(jì)解決了分布式訓(xùn)練負(fù)載均衡的難題,是實(shí)打?qū)嵉膭?chuàng)新。
但反對(duì)者,反對(duì)者翻出匿名爆料,稱(chēng)部分盤(pán)古模型存在“洗水印”嫌棄——即對(duì)開(kāi)源模型進(jìn)行微調(diào)后重新包裝。盡管爆料未提供具體證據(jù),但阿里通義千問(wèn)的開(kāi)源協(xié)議中明確要求衍生模型需標(biāo)注來(lái)源,這一細(xì)節(jié)讓爭(zhēng)議更加撲朔迷離。
從技術(shù)角度看,參數(shù)結(jié)構(gòu)的相似性可能源于訓(xùn)練數(shù)據(jù)的重疊或優(yōu)化目標(biāo)的趨同。但問(wèn)題的核心在于,當(dāng)兩家巨頭在公開(kāi)場(chǎng)合強(qiáng)調(diào)“自主創(chuàng)新”時(shí),這種高度一致性是否違背了開(kāi)源協(xié)議的精神?
華為盤(pán)古團(tuán)隊(duì)的回應(yīng)中,一個(gè)細(xì)節(jié)值得玩味:他們提到“參考了業(yè)界開(kāi)源實(shí)踐”,但未具體說(shuō)明哪些實(shí)踐。這種模糊表述讓外界難以判斷其行為的邊界。而阿里的沉默,則被解讀為一種戰(zhàn)術(shù)性回避,避免卷入公開(kāi)論戰(zhàn)。
一位長(zhǎng)期觀察AI行業(yè)的分析師表示:“參數(shù)之爭(zhēng)的背后,是國(guó)產(chǎn)大模型在高速發(fā)展中的身份焦慮——既要追趕國(guó)際巨頭,又要在本土競(jìng)爭(zhēng)中脫穎而出。”這種焦慮,或許正是技術(shù)迷局的真正底色。
02 微調(diào)紅利與創(chuàng)新困局
華為與阿里的糾紛并非孤立事件,就在上個(gè)月,月之暗面與阿里就曾陷入類(lèi)似的糾紛。
就在外界認(rèn)為月之暗面要在國(guó)產(chǎn)大模型內(nèi)卷中掉隊(duì)之時(shí),其推出的Kimi-Dev-72B在SWE-bench測(cè)試中一騎絕塵。
該模型通過(guò)1500億專(zhuān)項(xiàng)數(shù)據(jù)和數(shù)百萬(wàn)GitHub工單優(yōu)化,將代碼任務(wù)準(zhǔn)確率提升至60.4%。在當(dāng)時(shí),它刷新了開(kāi)源模型的紀(jì)錄,將包括DeepSeek在內(nèi)的眾多競(jìng)爭(zhēng)對(duì)手甩在了身后。
不過(guò)好景不長(zhǎng),開(kāi)發(fā)者們很快發(fā)現(xiàn),Kimi-Dev-72B明確標(biāo)注了其基礎(chǔ)模型為Qwen/Qwen2.5-72B,隨后,開(kāi)發(fā)者社區(qū)的分歧迅速蔓延:有人將其視為“站在巨人肩膀上”的微調(diào)典范,也有人質(zhì)疑這是披著開(kāi)源外衣的“技術(shù)組裝”。
微調(diào)本是行業(yè)常態(tài),但標(biāo)注的透明性未能消弭質(zhì)疑。月之暗面官方解釋?zhuān)麄円訯wen 2.5-72B為起點(diǎn),收集了數(shù)百萬(wàn)個(gè)GitHub問(wèn)題單和PR提交作為中期訓(xùn)練數(shù)據(jù)集,其核心創(chuàng)新點(diǎn)在于采用了大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)。
爭(zhēng)議的核心并非技術(shù)本身,而是創(chuàng)新的邊界。Kimi-Dev-72B的表現(xiàn)確實(shí)亮眼,但它的成功是否依賴(lài)于基座模型的原始能力?有匿名開(kāi)發(fā)者尖銳指出:“如果微調(diào)就能達(dá)到頂尖水平,原創(chuàng)的價(jià)值在哪里?”
開(kāi)源生態(tài)的規(guī)則正在被重新定義。阿里通過(guò)協(xié)議更新試圖維護(hù)技術(shù)主權(quán),而月之暗面則用性能說(shuō)話,試圖證明微調(diào)并非簡(jiǎn)單的“套殼”。市場(chǎng)反應(yīng)兩極分化:一部分企業(yè)開(kāi)始效仿這種快速迭代的模式,另一部分則呼吁回歸原創(chuàng)研發(fā)。
值得注意的是,Kimi-Dev-72B的優(yōu)化框架確實(shí)有其獨(dú)特性,它結(jié)合了BugFixer和TestWriter角色,通過(guò)強(qiáng)化學(xué)習(xí)精準(zhǔn)提升代碼修復(fù)和測(cè)試編寫(xiě)的效率。
但這種優(yōu)化是否足以定義“創(chuàng)新”,仍是一個(gè)懸而未決的問(wèn)題?梢(jiàn),行業(yè)的焦慮感正在加劇,當(dāng)微調(diào)成為捷徑,原創(chuàng)研發(fā)的成本和風(fēng)險(xiǎn)是否會(huì)被邊緣化?對(duì)此,一位風(fēng)投機(jī)構(gòu)合伙人給出解釋?zhuān)?ldquo;資本更傾向于快速見(jiàn)效的項(xiàng)目,原創(chuàng)大模型的投入周期太長(zhǎng)。”
03 失序的競(jìng)爭(zhēng)
R1的輝煌已成往事,R2的難產(chǎn)卻讓市場(chǎng)陷入焦灼。DeepSeek曾以低成本、高性能對(duì)標(biāo)OpenAI,一度成為全球開(kāi)源推理類(lèi)模型的標(biāo)桿。
截圖來(lái)源于DeepSeek官網(wǎng)
傳聞在今年4月發(fā)布的R2,時(shí)至今日也未能問(wèn)世,僅僅在5月末推出了一個(gè)R1的改款。
至少?gòu)?月以來(lái)的兩起“套殼”事件來(lái)看,改款的R1模型難以承擔(dān)定義行業(yè)標(biāo)準(zhǔn)的重任。
有媒體爆料稱(chēng),因公司創(chuàng)始人梁文鋒對(duì)性能的極致追求和H20芯片短缺被迫延期,根據(jù)爆料的內(nèi)部文件顯示,其1.2萬(wàn)億參數(shù)的MoE設(shè)計(jì)對(duì)標(biāo)GPT-4Turbo,但訓(xùn)練成本控制成為致命瓶頸。
技術(shù)瓶頸之外,行業(yè)正面臨更嚴(yán)峻的信任危機(jī)。R1曾以純強(qiáng)化學(xué)習(xí)訓(xùn)練打破技術(shù)范式,而R2的缺席讓華為、阿里有望搶占生態(tài)位,有風(fēng)投機(jī)構(gòu)對(duì)源Byte表示:“當(dāng)所有人都忙著給模型‘鍍金’,真正的創(chuàng)新反而成了奢侈品。”
DeepSeek如今已經(jīng)成為了國(guó)產(chǎn)大模型的代名詞,其R1模型具備定義行業(yè)標(biāo)準(zhǔn)的意義,但長(zhǎng)達(dá)半年多的技術(shù)缺位、R2接連跳票后,難免有人想取而代之。“對(duì)于一線互聯(lián)網(wǎng)大廠來(lái)說(shuō),能夠定義行業(yè)標(biāo)準(zhǔn)、引領(lǐng)行業(yè)前進(jìn)方向,才是他們最為看重的。”上述風(fēng)投機(jī)構(gòu)坦言。
簡(jiǎn)單點(diǎn)理解,就是DeepSeek R2的跳票,或變相造成了國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)失焦。
華為和阿里在R2真空期內(nèi)動(dòng)作頻頻,華為盤(pán)古ProMoE的爭(zhēng)議尚未平息,阿里已悄然推進(jìn)Qwen-3.0的迭代。兩家巨頭的技術(shù)路徑雖有差異,但核心邏輯仍是參數(shù)與性能的堆砌,難怪不少匿名開(kāi)發(fā)者都在調(diào)侃:“大家都在玩‘誰(shuí)的數(shù)字更大’,沒(méi)人關(guān)心技術(shù)是否真的進(jìn)步。”
據(jù)部分開(kāi)發(fā)者向源Byte爆料稱(chēng),部分國(guó)產(chǎn)智能體專(zhuān)注“出海”,而非針對(duì)國(guó)內(nèi)市場(chǎng)開(kāi)發(fā),除了國(guó)內(nèi)市場(chǎng)尚未形成付費(fèi)習(xí)慣,還有相當(dāng)一部分的原因是,國(guó)產(chǎn)大模型僅僅在參數(shù)上追平或趕超海外模型,但在具體的開(kāi)發(fā)細(xì)節(jié)上,仍存在一定差距,直接導(dǎo)致開(kāi)發(fā)成本的飆升。
與此同時(shí),芯片短缺加劇了這場(chǎng)混亂。英偉達(dá)H20的供應(yīng)緊張,讓依賴(lài)高端硬件的企業(yè)陷入被動(dòng)。DeepSeek的延遲或許只是開(kāi)始,更多中小廠商可能因資源不足被迫退出競(jìng)爭(zhēng)。
即便如此,市場(chǎng)對(duì)R2的期待仍未消退。傳聞稱(chēng)其混合專(zhuān)家架構(gòu)(MoE)將成本大大降低,但具體表現(xiàn)仍是未知數(shù)。若R2能如期突破,或許能重新點(diǎn)燃行業(yè)的信心;若繼續(xù)延遲,國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)格局或?qū)⒏膶?xiě)。
耐人尋味的是,這場(chǎng)延遲反而讓市場(chǎng)看清了行業(yè)的真實(shí)狀態(tài),技術(shù)路徑趨同、創(chuàng)新乏力、資源壟斷——這些問(wèn)題在R2的缺席中被放大。一位從業(yè)者無(wú)奈表示:“我們需要的不是另一個(gè)參數(shù)怪獸,而是能真正解決問(wèn)題的工具。”
部分圖片來(lái)源于網(wǎng)絡(luò),如有侵權(quán)請(qǐng)告知?jiǎng)h除
原文標(biāo)題 : 改款DeepSeek,亂了華為心態(tài)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人