一文搞懂DeepSeek創(chuàng)新了些啥?
各位小伙伴兒過年好哈。
春節(jié)這陣子,DeepSeek帶著AI大模型火出了圈,大家都說DeepSeek公司和旗下AI大模型有多好多好,但很少提及具體的創(chuàng)新點在哪里。今天我們就來聊聊DeepSeek具體創(chuàng)新了些啥。
以往,大家普遍認為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到,OpenAI興起的時候,不僅英偉達(NVIDIA)因此受益,只要沾邊AI的東西都“飛起”。美國佬更是通過禁售英偉達GPU來遏制中國AI發(fā)展。
但就在大家燒錢堆算力的時候,DeepSeek選擇燒腦改算法,下面那我就來捋一捋DeepSeek那些創(chuàng)新的點。(如有不對,歡迎指正):
1、首先我們先看是DeepSeek-V2
DeepSeek-V2可以說是DeepSeek的第一次小出圈,當時靠著超低價格直接讓國產(chǎn)大模型廠商紛紛降價,那么為什么DeepSeek-V2能做到如何低價呢?
為了實現(xiàn)高效的推理和成本效益高的訓練,DeepSeek-V2采用了兩大創(chuàng)新:DeepSeekMoE架構(gòu)和多頭潛在注意力(Multi-head Latent Attention,MLA)。這兩個技術(shù)創(chuàng)新分別針對 Transformer 架構(gòu)中的不同瓶頸,成為DeepSeek-V2出圈的關(guān)鍵所在。
下面我們來看下什么是MoE架構(gòu)?
我們都知道,Dense大模型是目前國外主流的模型架構(gòu),DeepSeek-V2放棄了DeepSeek-V1的Dense(密集)路線,轉(zhuǎn)而使用MoE(混合專家模型)路線。
Dense的缺點就是參數(shù)量大,硬件消耗大,這也導致之前的大模型價格高。MoE由多個子模型(即“專家expert”)組成,每個子模型都是一個局部模型,專門處理輸入空間的一個子集。
相當于把dense大模型變成很多個sparse(稀疏)的專家(expert)小模型,通過多個模型聚合來達到和dense大模型相當?shù)哪芰。轉(zhuǎn)成MoE架構(gòu),DS-V2不僅激活參數(shù)量大大減少,并且性能提升很高。
舉個例子,傳統(tǒng)的大模型就好比一家?guī)讉頂級廚師的餐廳,每個廚師擅長所有的菜系,但當大量復雜的菜品出現(xiàn)時,廚師忙不過來反而會造成效率低下。MoE模型則相當于招了更多的沒那么高級廚師來說,但是每個廚師會不同的菜系,在面對復雜的菜品時,模型能夠根據(jù)菜品的特點,智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費。
可能有人有會問,MoE這么好為什么國外大模型不愛用呢?
其實主要原因就是MoE大模型有個問題叫負載均衡(load balance),會導致訓練不穩(wěn)定。這會導致一個問題,就是訓練過程中會采用所謂的專家并行(expert parallelism)機制,通過將不同的expert放到不同的顯卡上來加速訓練,而load balance問題會導致某些重要的expert計算量更大,最終結(jié)果就是不重要的expert所在的顯卡跑不滿,效率不夠高。
DeepSeek-V2則在一些現(xiàn)有的解決load balance問題的方法基礎(chǔ)上,引入了額外的損失函數(shù)(即設(shè)備級平衡損失和通信平衡損失,下圖)來讓模型在訓練中自主控制不同設(shè)備間的平衡,這兩個優(yōu)化方法都是他們的創(chuàng)新點。
DeepSeek-V2的另一大創(chuàng)新是MLA(Multi-Head Latent Attention,多頭潛注意力,下圖)。
下面我們大概簡單說下。
在大模型運行過程中,每次生成一個token(可以大概理解為一個字),而每個token只與之前的token有關(guān)。在不進行優(yōu)化的情況下,每個token生成的時候都需要把之前所有的token都處理一遍,這樣的話效率非常差。
由于每個token只與之前的token有關(guān),我們就可以把上一次生成過程中計算過的矩陣保存下來,這樣生成下一個token我們可以復用這個矩陣,只需要計算新token的注意力即可。這個技術(shù)叫做kv-cache,是目前大模型非常常用的優(yōu)化算法。
但是kv-cache需要額外的顯存保存這些kv-cache,這樣的話在上下文(context)很長的情況下顯存占用會非常高。尤其是在實際部署時服務(wù)器一般會批量處理并發(fā)請求,這樣的并發(fā)請求會帶來恐怖的kv-cache量,會導致顯存不夠用。
MLA通過低秩聯(lián)合壓縮鍵值(Key-Value),將它們壓縮為一個潛在向量(latent vector),從而大幅減少所需的緩存容量。這種方法不僅減少了緩存的數(shù)據(jù)量,還降低了計算復雜度。MLA在我看來是個天才的想法,比較有趣的是去年梁文峰的訪談提到這個MLA是某位研究員突發(fā)奇想想到的。當然從想法到落地還是很難的,據(jù)他所說用了幾個月。
同樣用上面的飯店來舉個例子,傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員的餐廳,每個服務(wù)員從頭到尾獨立負責自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當有大量復雜菜品出現(xiàn)時,這就可能會出現(xiàn)多個服務(wù)員重復記錄相同訂單、傳菜時堵在廚房門口的問題。
MLA技術(shù)讓所有服務(wù)員共享一個智能平板,能實時同步訂單、桌號、菜品狀態(tài)(省去重復記錄);上菜時,只有負責上菜的服務(wù)員工作,其他人在需要時才會介入(按需分工)。這樣既能更快地完成任務(wù),又能保證每部分任務(wù)的完成質(zhì)量。
2、接下來我們來看下DeepSeek-V3的創(chuàng)新。
DeepSeek-V3在2024年12月發(fā)布,發(fā)布時候引來了極大的關(guān)注,也是DeepSeek第一次大范圍出圈,其訓練成本低的令人吃驚。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架構(gòu)合MLA技術(shù),但DeepSeek-V3引入了MTP(Multi-Token Prediction,多token預測)機制。
我們都知道,傳統(tǒng)的大模型(LLMs)都是decoder-base的模型結(jié)構(gòu),也就是無論在模型訓練還是在推理階段,對于一個序列的生成過程,都是token-by-token的。每次在生成一個token的時候,都要頻繁跟訪存交互,加載KV-Cache,再通過多層網(wǎng)絡(luò)做完整的前向計算。對于這樣的訪存密集型的任務(wù),通常會因為訪存效率形成訓練或推理的瓶頸。
針對token-by-token生成效率的瓶頸,業(yè)界很多方法來優(yōu)化,包括減少存儲的空間和減少訪存次數(shù)等,進而提升訓練和推理性能。
而DeepSeek-V3的MTP,通過對MTP模塊的重新設(shè)計,使得同時生成的多個token之間有了相互的聯(lián)系,從而對數(shù)據(jù)的利用率更好,而且MTP在生成時可以通過更好的預先規(guī)劃產(chǎn)生更好的生成結(jié)果。
就像飯店的服務(wù)員,在顧客點主菜后,立馬建議甜點和飲料,提前準備服務(wù),而不是等顧客一個個點完,從而使服務(wù)更加流暢、體驗更好。
除了架構(gòu)上的升級,DeepSeek-V3的成本之所以能做到那么低,主要原因是優(yōu)化了訓練的方法。
比如一般來說現(xiàn)在的大模型都采用BF16精度訓練,而DeepSeek-V3原生采用FP-8精度進行訓練,F(xiàn)P-8精度訓練的效率是BF-16精度約1.6倍。他們?yōu)榱朔(wěn)定的FP8訓練對運算底層操作進行了大量優(yōu)化,因為英偉達本身沒有對FP8進行太好的優(yōu)化,畢竟大部分AI企業(yè)都是再用BF16進行訓練。另外DeepSeek-V3還優(yōu)化了并行流水線(pipeline)共同造就了DeepSeek-V3“AI拼多多”般的低成本。
3、DeepSeek-V3的創(chuàng)新
在2025年1月,DeepSeek-V3發(fā)布。相比于V3,DeepSeek-R1創(chuàng)新性主要體現(xiàn)在“范式轉(zhuǎn)換”上。
一直以來,LLM的訓練方式都是讓模型跟著數(shù)據(jù)學生成,這種方式稱之為監(jiān)督學習(Supervised Finetuning,SFT)。而R1采用了強化學習(Reinforcement Learning,RL)的方法。
RL通俗來說就是讓模型(agent)和環(huán)境(environment)進行互動,然后通過其互動的結(jié)果進行打分(reward),從而訓練模型。大語言模型此前采用的RLHF(人類反饋強化學習)也是RL的一種。但和RLHF不同的是,R1采用的RL方法(稱為GRPO,Group Relative Policy Optimization,組相關(guān)策略優(yōu)化,下圖)并不需要一個龐大的人類標注數(shù)據(jù)庫。
他的訓練方式很簡單:讓模型自己生成過程,最后只檢查結(jié)果是否正確。如果是數(shù)學題,那么就看輸出的結(jié)果文本;如果是編程題,那就看運行后的結(jié)果。而DeepSeek發(fā)現(xiàn),在V3的基礎(chǔ)上直接采用這種簡單的RL,竟然能讓新的模型具有推理(Reasoning)的能力,而且隨著訓練步數(shù)增多,其思維鏈(Chain-of-Thought,CoT)的長度也越來越長,并且發(fā)現(xiàn)模型開始在推理過程中自我反思。
這個純RL方法練出來的模型就是R1-Zero,是完全RL訓練出來的模型,一開始沒有教模型任何圍棋知識,一切全靠模型自己摸索,最后達到超越人類)。但是DS發(fā)現(xiàn)R1-Zero的CoT并不是很完美,最大問題是可讀性很差。
所以他們利用R1-Zero生成了一批帶有CoT的“冷啟動樣本”,然后對V3進行了一次SFT,這樣就獲得了一個初步能夠進行推理的模型(稱為模型1)。接下來他們對模型1進行一次基于GRPO的RL(和R1-Zero一樣),然后用這個模型1生成一批高質(zhì)量的推理數(shù)據(jù)集。接著,再用V3生成一批沒有推理的數(shù)據(jù)集(主要用于保證模型的文科類能力,比如寫作、事實問答)。然后將這兩個數(shù)據(jù)集合并(文理科合并),重新對V3進行SFT,獲得模型2,再對模型2進行基于GRPO的RL,最終獲得R1。
R1證明了一件事:就是如果基礎(chǔ)模型能力夠強(如V3),在RL過程中它就能自己學會推理。這也是為什么國外AI圈的人看到DS-R1之后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗镽1說明能力足夠強的模型是可以不依靠人類自己進化的(當然,嚴格來說現(xiàn)階段的reward還是需要標簽的)。
4、模式創(chuàng)新,“繞過”通用,從垂直場景切入。
根據(jù)DeepSeek公布的跑分數(shù)據(jù)顯示,DeepSeek-R1在培訓后階段大規(guī)模使用強化學習技術(shù),在數(shù)學、代碼、自然語言推理和其他任務(wù)上,其性能可與OpenAI o1正式版本媲美,而價格僅為o1的3%。
但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是“通用智能”,投入大量資金人力,想要的是全能通才的效果。國內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒有什么明顯的能力短板,快速達到可商用水平。
而DeepSeek選擇從垂直場景切入,先追求在部分領(lǐng)域(如數(shù)學、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長和建立差異化優(yōu)勢的發(fā)展策略。
因為,筆者認為,目前中國的大模型企業(yè),不必都扎堆死磕“全能大模型”,可選擇垂直場景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過構(gòu)建起數(shù)據(jù)護城河,進而在細分領(lǐng)域闖出一片天。
原文標題 : 一文搞懂DeepSeek創(chuàng)新了些啥?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預約>> OFweek 2025具身智能機器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
推薦專題