无码熟妇人妻av在线影片最多 ,亚州国产av一区二区三区伊在

改款DeepSeek，亂了華為心態(tài)

2025-07-07 18:34

文源：源Byte

作者：柯基的柯

當(dāng)技術(shù)參數(shù)的相關(guān)性飆到0.927，行業(yè)直接炸了。

近期，有研究團(tuán)隊(duì)在GitHub上公開(kāi)比對(duì)數(shù)據(jù)，指出華為盤(pán)古ProMoE與阿里Qwen-2.5 14B參數(shù)結(jié)構(gòu)高度雷同，居然高達(dá)0.927，超過(guò)業(yè)內(nèi)正常范圍（通常低于0.7）。華為盤(pán)古團(tuán)隊(duì)迅速回應(yīng)，強(qiáng)調(diào)其模型基于昇騰硬件優(yōu)化，屬于“殊途同歸”，向來(lái)在輿論場(chǎng)上不輸陣仗的阿里，卻意外保持沉默。

截圖來(lái)源于諾亞方舟實(shí)驗(yàn)室公號(hào)

無(wú)獨(dú)有偶，就在上個(gè)月，月之暗面的Kimi-Dev-72B憑借60.4%的測(cè)試成績(jī)驚艷亮相，因“Basemodel:Qwen2.5-72B”的標(biāo)注被貼上“套殼”標(biāo)簽陷入爭(zhēng)議。就在開(kāi)發(fā)者們爭(zhēng)論不休之時(shí)，外界發(fā)現(xiàn)“受害者”依舊是阿里，不禁發(fā)出如此疑問(wèn)：這是微調(diào)技術(shù)的勝利，還是原創(chuàng)性匱乏的遮羞布？

而曾被寄予厚望的DeepSeek R2，遲遲未能面世，這款有望繼續(xù)對(duì)世界頂級(jí)大模型持續(xù)施壓的模型長(zhǎng)期“跳票”，一定程度助推了國(guó)產(chǎn)大模型的技術(shù)標(biāo)準(zhǔn)“失焦”。

在一片R2“狼來(lái)了”的聲音中，市場(chǎng)似乎在等待中逐漸失去耐心，正在讓國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)，從技術(shù)比拼滑向資源內(nèi)耗。

01 參數(shù)之爭(zhēng)背后的技術(shù)迷局

華為盤(pán)古ProMoE與阿里Qwen-2.5 14B的“0.927相似度”，直接剖開(kāi)了大模型研發(fā)的黑箱。

研究團(tuán)隊(duì)通過(guò)比對(duì)注意力參數(shù)分布，發(fā)現(xiàn)兩者結(jié)構(gòu)相似性遠(yuǎn)超行業(yè)常態(tài)。華為堅(jiān)稱(chēng)其模型基于昇騰硬件優(yōu)化，屬于“異構(gòu)架構(gòu)的殊途同歸”；阿里則保持沉默，但開(kāi)源社區(qū)已涌現(xiàn)對(duì)代碼復(fù)用合規(guī)性的質(zhì)疑。

然而，技術(shù)細(xì)節(jié)的爭(zhēng)議很快滑向商業(yè)博弈的泥潭。

盤(pán)古團(tuán)隊(duì)緊急發(fā)布技術(shù)白皮書(shū)，強(qiáng)調(diào)其MoE架構(gòu)的專(zhuān)利布局；阿里則加速推進(jìn)Qwen-3.0迭代，似乎在用版本升級(jí)對(duì)沖輿論風(fēng)險(xiǎn)。一位不愿具名的芯片工程師透露：“參數(shù)結(jié)構(gòu)的趨同，本質(zhì)上是算力軍備競(jìng)賽下的技術(shù)妥協(xié)。”

開(kāi)發(fā)者社區(qū)并不買(mǎi)賬，用戶(hù) @HonestAGI 通過(guò) “LLM 指紋” 技術(shù)反向驗(yàn)證，結(jié)果與原始研究高度吻合。技術(shù)趨同是否等同于抄襲？這一問(wèn)題在開(kāi)源社區(qū)引發(fā)激烈辯論。

支持華為的聲音認(rèn)為，大模型領(lǐng)域的技術(shù)重疊難以避免，關(guān)鍵在于優(yōu)化和落地。昇騰生態(tài)的擁躉特別指出，盤(pán)古的動(dòng)態(tài)專(zhuān)家網(wǎng)絡(luò)設(shè)計(jì)解決了分布式訓(xùn)練負(fù)載均衡的難題，是實(shí)打?qū)嵉膭?chuàng)新。

但反對(duì)者，反對(duì)者翻出匿名爆料，稱(chēng)部分盤(pán)古模型存在“洗水印”嫌棄——即對(duì)開(kāi)源模型進(jìn)行微調(diào)后重新包裝。盡管爆料未提供具體證據(jù)，但阿里通義千問(wèn)的開(kāi)源協(xié)議中明確要求衍生模型需標(biāo)注來(lái)源，這一細(xì)節(jié)讓爭(zhēng)議更加撲朔迷離。

從技術(shù)角度看，參數(shù)結(jié)構(gòu)的相似性可能源于訓(xùn)練數(shù)據(jù)的重疊或優(yōu)化目標(biāo)的趨同。但問(wèn)題的核心在于，當(dāng)兩家巨頭在公開(kāi)場(chǎng)合強(qiáng)調(diào)“自主創(chuàng)新”時(shí)，這種高度一致性是否違背了開(kāi)源協(xié)議的精神？

華為盤(pán)古團(tuán)隊(duì)的回應(yīng)中，一個(gè)細(xì)節(jié)值得玩味：他們提到“參考了業(yè)界開(kāi)源實(shí)踐”，但未具體說(shuō)明哪些實(shí)踐。這種模糊表述讓外界難以判斷其行為的邊界。而阿里的沉默，則被解讀為一種戰(zhàn)術(shù)性回避，避免卷入公開(kāi)論戰(zhàn)。

一位長(zhǎng)期觀察AI行業(yè)的分析師表示：“參數(shù)之爭(zhēng)的背后，是國(guó)產(chǎn)大模型在高速發(fā)展中的身份焦慮——既要追趕國(guó)際巨頭，又要在本土競(jìng)爭(zhēng)中脫穎而出。”這種焦慮，或許正是技術(shù)迷局的真正底色。

02 微調(diào)紅利與創(chuàng)新困局

華為與阿里的糾紛并非孤立事件，就在上個(gè)月，月之暗面與阿里就曾陷入類(lèi)似的糾紛。

就在外界認(rèn)為月之暗面要在國(guó)產(chǎn)大模型內(nèi)卷中掉隊(duì)之時(shí)，其推出的Kimi-Dev-72B在SWE-bench測(cè)試中一騎絕塵。

該模型通過(guò)1500億專(zhuān)項(xiàng)數(shù)據(jù)和數(shù)百萬(wàn)GitHub工單優(yōu)化，將代碼任務(wù)準(zhǔn)確率提升至60.4%。在當(dāng)時(shí)，它刷新了開(kāi)源模型的紀(jì)錄，將包括DeepSeek在內(nèi)的眾多競(jìng)爭(zhēng)對(duì)手甩在了身后。

不過(guò)好景不長(zhǎng)，開(kāi)發(fā)者們很快發(fā)現(xiàn)，Kimi-Dev-72B明確標(biāo)注了其基礎(chǔ)模型為Qwen/Qwen2.5-72B，隨后，開(kāi)發(fā)者社區(qū)的分歧迅速蔓延：有人將其視為“站在巨人肩膀上”的微調(diào)典范，也有人質(zhì)疑這是披著開(kāi)源外衣的“技術(shù)組裝”。

微調(diào)本是行業(yè)常態(tài)，但標(biāo)注的透明性未能消弭質(zhì)疑。月之暗面官方解釋?zhuān)麄円訯wen 2.5-72B為起點(diǎn)，收集了數(shù)百萬(wàn)個(gè)GitHub問(wèn)題單和PR提交作為中期訓(xùn)練數(shù)據(jù)集，其核心創(chuàng)新點(diǎn)在于采用了大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)。

爭(zhēng)議的核心并非技術(shù)本身，而是創(chuàng)新的邊界。Kimi-Dev-72B的表現(xiàn)確實(shí)亮眼，但它的成功是否依賴(lài)于基座模型的原始能力？有匿名開(kāi)發(fā)者尖銳指出：“如果微調(diào)就能達(dá)到頂尖水平，原創(chuàng)的價(jià)值在哪里？”

開(kāi)源生態(tài)的規(guī)則正在被重新定義。阿里通過(guò)協(xié)議更新試圖維護(hù)技術(shù)主權(quán)，而月之暗面則用性能說(shuō)話，試圖證明微調(diào)并非簡(jiǎn)單的“套殼”。市場(chǎng)反應(yīng)兩極分化：一部分企業(yè)開(kāi)始效仿這種快速迭代的模式，另一部分則呼吁回歸原創(chuàng)研發(fā)。

值得注意的是，Kimi-Dev-72B的優(yōu)化框架確實(shí)有其獨(dú)特性，它結(jié)合了BugFixer和TestWriter角色，通過(guò)強(qiáng)化學(xué)習(xí)精準(zhǔn)提升代碼修復(fù)和測(cè)試編寫(xiě)的效率。

但這種優(yōu)化是否足以定義“創(chuàng)新”，仍是一個(gè)懸而未決的問(wèn)題�？梢�(jiàn)，行業(yè)的焦慮感正在加劇，當(dāng)微調(diào)成為捷徑，原創(chuàng)研發(fā)的成本和風(fēng)險(xiǎn)是否會(huì)被邊緣化？對(duì)此，一位風(fēng)投機(jī)構(gòu)合伙人給出解釋?zhuān)?ldquo;資本更傾向于快速見(jiàn)效的項(xiàng)目，原創(chuàng)大模型的投入周期太長(zhǎng)。”

03 失序的競(jìng)爭(zhēng)

R1的輝煌已成往事，R2的難產(chǎn)卻讓市場(chǎng)陷入焦灼。DeepSeek曾以低成本、高性能對(duì)標(biāo)OpenAI，一度成為全球開(kāi)源推理類(lèi)模型的標(biāo)桿。

截圖來(lái)源于DeepSeek官網(wǎng)

傳聞在今年4月發(fā)布的R2，時(shí)至今日也未能問(wèn)世，僅僅在5月末推出了一個(gè)R1的改款。

至少?gòu)?月以來(lái)的兩起“套殼”事件來(lái)看，改款的R1模型難以承擔(dān)定義行業(yè)標(biāo)準(zhǔn)的重任。

有媒體爆料稱(chēng)，因公司創(chuàng)始人梁文鋒對(duì)性能的極致追求和H20芯片短缺被迫延期，根據(jù)爆料的內(nèi)部文件顯示，其1.2萬(wàn)億參數(shù)的MoE設(shè)計(jì)對(duì)標(biāo)GPT-4Turbo，但訓(xùn)練成本控制成為致命瓶頸。

技術(shù)瓶頸之外，行業(yè)正面臨更嚴(yán)峻的信任危機(jī)。R1曾以純強(qiáng)化學(xué)習(xí)訓(xùn)練打破技術(shù)范式，而R2的缺席讓華為、阿里有望搶占生態(tài)位，有風(fēng)投機(jī)構(gòu)對(duì)源Byte表示：“當(dāng)所有人都忙著給模型‘鍍金’，真正的創(chuàng)新反而成了奢侈品。”

DeepSeek如今已經(jīng)成為了國(guó)產(chǎn)大模型的代名詞，其R1模型具備定義行業(yè)標(biāo)準(zhǔn)的意義，但長(zhǎng)達(dá)半年多的技術(shù)缺位、R2接連跳票后，難免有人想取而代之。“對(duì)于一線互聯(lián)網(wǎng)大廠來(lái)說(shuō)，能夠定義行業(yè)標(biāo)準(zhǔn)、引領(lǐng)行業(yè)前進(jìn)方向，才是他們最為看重的。”上述風(fēng)投機(jī)構(gòu)坦言。

簡(jiǎn)單點(diǎn)理解，就是DeepSeek R2的跳票，或變相造成了國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)失焦。

華為和阿里在R2真空期內(nèi)動(dòng)作頻頻，華為盤(pán)古ProMoE的爭(zhēng)議尚未平息，阿里已悄然推進(jìn)Qwen-3.0的迭代。兩家巨頭的技術(shù)路徑雖有差異，但核心邏輯仍是參數(shù)與性能的堆砌，難怪不少匿名開(kāi)發(fā)者都在調(diào)侃：“大家都在玩‘誰(shuí)的數(shù)字更大’，沒(méi)人關(guān)心技術(shù)是否真的進(jìn)步。”

據(jù)部分開(kāi)發(fā)者向源Byte爆料稱(chēng)，部分國(guó)產(chǎn)智能體專(zhuān)注“出海”，而非針對(duì)國(guó)內(nèi)市場(chǎng)開(kāi)發(fā)，除了國(guó)內(nèi)市場(chǎng)尚未形成付費(fèi)習(xí)慣，還有相當(dāng)一部分的原因是，國(guó)產(chǎn)大模型僅僅在參數(shù)上追平或趕超海外模型，但在具體的開(kāi)發(fā)細(xì)節(jié)上，仍存在一定差距，直接導(dǎo)致開(kāi)發(fā)成本的飆升。

與此同時(shí)，芯片短缺加劇了這場(chǎng)混亂。英偉達(dá)H20的供應(yīng)緊張，讓依賴(lài)高端硬件的企業(yè)陷入被動(dòng)。DeepSeek的延遲或許只是開(kāi)始，更多中小廠商可能因資源不足被迫退出競(jìng)爭(zhēng)。

即便如此，市場(chǎng)對(duì)R2的期待仍未消退。傳聞稱(chēng)其混合專(zhuān)家架構(gòu)（MoE）將成本大大降低，但具體表現(xiàn)仍是未知數(shù)。若R2能如期突破，或許能重新點(diǎn)燃行業(yè)的信心；若繼續(xù)延遲，國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)格局或?qū)⒏膶?xiě)。

耐人尋味的是，這場(chǎng)延遲反而讓市場(chǎng)看清了行業(yè)的真實(shí)狀態(tài)，技術(shù)路徑趨同、創(chuàng)新乏力、資源壟斷——這些問(wèn)題在R2的缺席中被放大。一位從業(yè)者無(wú)奈表示：“我們需要的不是另一個(gè)參數(shù)怪獸，而是能真正解決問(wèn)題的工具。”

部分圖片來(lái)源于網(wǎng)絡(luò)，如有侵權(quán)請(qǐng)告知?jiǎng)h除

原文標(biāo)題 : 改款DeepSeek，亂了華為心態(tài)