少妇脱了内裤在客厅被,羞羞影院午夜男女爽爽

一文搞懂DeepSeek創(chuàng)新了些啥？

2025-02-07 10:49

各位小伙伴兒過年好哈。

春節(jié)這陣子，DeepSeek帶著AI大模型火出了圈，大家都說DeepSeek公司和旗下AI大模型有多好多好，但很少提及具體的創(chuàng)新點在哪里。今天我們就來聊聊DeepSeek具體創(chuàng)新了些啥。

以往，大家普遍認為算力是AI的核心，發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到，OpenAI興起的時候，不僅英偉達（NVIDIA）因此受益，只要沾邊AI的東西都“飛起”。美國佬更是通過禁售英偉達GPU來遏制中國AI發(fā)展。

但就在大家燒錢堆算力的時候，DeepSeek選擇燒腦改算法，下面那我就來捋一捋DeepSeek那些創(chuàng)新的點。（如有不對，歡迎指正）：

1、首先我們先看是DeepSeek-V2

DeepSeek-V2可以說是DeepSeek的第一次小出圈，當時靠著超低價格直接讓國產(chǎn)大模型廠商紛紛降價，那么為什么DeepSeek-V2能做到如何低價呢？

為了實現(xiàn)高效的推理和成本效益高的訓練，DeepSeek-V2采用了兩大創(chuàng)新：DeepSeekMoE架構(gòu)和多頭潛在注意力（Multi-head Latent Attention，MLA）。這兩個技術(shù)創(chuàng)新分別針對 Transformer 架構(gòu)中的不同瓶頸，成為DeepSeek-V2出圈的關(guān)鍵所在。

下面我們來看下什么是MoE架構(gòu)？

我們都知道，Dense大模型是目前國外主流的模型架構(gòu)，DeepSeek-V2放棄了DeepSeek-V1的Dense（密集）路線，轉(zhuǎn)而使用MoE（混合專家模型）路線。

Dense的缺點就是參數(shù)量大，硬件消耗大，這也導致之前的大模型價格高。MoE由多個子模型（即“專家expert”）組成，每個子模型都是一個局部模型，專門處理輸入空間的一個子集。

相當于把dense大模型變成很多個sparse（稀疏）的專家（expert）小模型，通過多個模型聚合來達到和dense大模型相當?shù)哪芰�。轉(zhuǎn)成MoE架構(gòu)，DS-V2不僅激活參數(shù)量大大減少，并且性能提升很高。

舉個例子，傳統(tǒng)的大模型就好比一家?guī)讉€頂級廚師的餐廳，每個廚師擅長所有的菜系，但當大量復雜的菜品出現(xiàn)時，廚師忙不過來反而會造成效率低下。MoE模型則相當于招了更多的沒那么高級廚師來說，但是每個廚師會不同的菜系，在面對復雜的菜品時，模型能夠根據(jù)菜品的特點，智能地將其分配給最合適的廚師處理，從而提高處理效率，減少不必要的資源浪費。

可能有人有會問，MoE這么好為什么國外大模型不愛用呢？

其實主要原因就是MoE大模型有個問題叫負載均衡（load balance），會導致訓練不穩(wěn)定。這會導致一個問題，就是訓練過程中會采用所謂的專家并行（expert parallelism）機制，通過將不同的expert放到不同的顯卡上來加速訓練，而load balance問題會導致某些重要的expert計算量更大，最終結(jié)果就是不重要的expert所在的顯卡跑不滿，效率不夠高。

DeepSeek-V2則在一些現(xiàn)有的解決load balance問題的方法基礎(chǔ)上，引入了額外的損失函數(shù)（即設(shè)備級平衡損失和通信平衡損失，下圖）來讓模型在訓練中自主控制不同設(shè)備間的平衡，這兩個優(yōu)化方法都是他們的創(chuàng)新點。

DeepSeek-V2的另一大創(chuàng)新是MLA（Multi-Head Latent Attention，多頭潛注意力，下圖）。

下面我們大概簡單說下。

在大模型運行過程中，每次生成一個token（可以大概理解為一個字），而每個token只與之前的token有關(guān)。在不進行優(yōu)化的情況下，每個token生成的時候都需要把之前所有的token都處理一遍，這樣的話效率非常差。

由于每個token只與之前的token有關(guān)，我們就可以把上一次生成過程中計算過的矩陣保存下來，這樣生成下一個token我們可以復用這個矩陣，只需要計算新token的注意力即可。這個技術(shù)叫做kv-cache，是目前大模型非常常用的優(yōu)化算法。

但是kv-cache需要額外的顯存保存這些kv-cache，這樣的話在上下文（context）很長的情況下顯存占用會非常高。尤其是在實際部署時服務(wù)器一般會批量處理并發(fā)請求，這樣的并發(fā)請求會帶來恐怖的kv-cache量，會導致顯存不夠用。

MLA通過低秩聯(lián)合壓縮鍵值（Key-Value），將它們壓縮為一個潛在向量（latent vector），從而大幅減少所需的緩存容量。這種方法不僅減少了緩存的數(shù)據(jù)量，還降低了計算復雜度。MLA在我看來是個天才的想法，比較有趣的是去年梁文峰的訪談提到這個MLA是某位研究員突發(fā)奇想想到的。當然從想法到落地還是很難的，據(jù)他所說用了幾個月。

同樣用上面的飯店來舉個例子，傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員的餐廳，每個服務(wù)員從頭到尾獨立負責自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當有大量復雜菜品出現(xiàn)時，這就可能會出現(xiàn)多個服務(wù)員重復記錄相同訂單、傳菜時堵在廚房門口的問題。

MLA技術(shù)讓所有服務(wù)員共享一個智能平板，能實時同步訂單、桌號、菜品狀態(tài)（省去重復記錄）；上菜時，只有負責上菜的服務(wù)員工作，其他人在需要時才會介入（按需分工）。這樣既能更快地完成任務(wù)，又能保證每部分任務(wù)的完成質(zhì)量。

2、接下來我們來看下DeepSeek-V3的創(chuàng)新。

DeepSeek-V3在2024年12月發(fā)布，發(fā)布時候引來了極大的關(guān)注，也是DeepSeek第一次大范圍出圈，其訓練成本低的令人吃驚。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架構(gòu)合MLA技術(shù)，但DeepSeek-V3引入了MTP（Multi-Token Prediction，多token預測）機制。

我們都知道，傳統(tǒng)的大模型(LLMs)都是decoder-base的模型結(jié)構(gòu)，也就是無論在模型訓練還是在推理階段，對于一個序列的生成過程，都是token-by-token的。每次在生成一個token的時候，都要頻繁跟訪存交互，加載KV-Cache，再通過多層網(wǎng)絡(luò)做完整的前向計算。對于這樣的訪存密集型的任務(wù)，通常會因為訪存效率形成訓練或推理的瓶頸。

針對token-by-token生成效率的瓶頸，業(yè)界很多方法來優(yōu)化，包括減少存儲的空間和減少訪存次數(shù)等，進而提升訓練和推理性能。

而DeepSeek-V3的MTP，通過對MTP模塊的重新設(shè)計，使得同時生成的多個token之間有了相互的聯(lián)系，從而對數(shù)據(jù)的利用率更好，而且MTP在生成時可以通過更好的預先規(guī)劃產(chǎn)生更好的生成結(jié)果。

就像飯店的服務(wù)員，在顧客點主菜后，立馬建議甜點和飲料，提前準備服務(wù)，而不是等顧客一個個點完，從而使服務(wù)更加流暢、體驗更好。

除了架構(gòu)上的升級，DeepSeek-V3的成本之所以能做到那么低，主要原因是優(yōu)化了訓練的方法。

比如一般來說現(xiàn)在的大模型都采用BF16精度訓練，而DeepSeek-V3原生采用FP-8精度進行訓練，F(xiàn)P-8精度訓練的效率是BF-16精度約1.6倍。他們?yōu)榱朔€(wěn)定的FP8訓練對運算底層操作進行了大量優(yōu)化，因為英偉達本身沒有對FP8進行太好的優(yōu)化，畢竟大部分AI企業(yè)都是再用BF16進行訓練。另外DeepSeek-V3還優(yōu)化了并行流水線（pipeline）共同造就了DeepSeek-V3“AI拼多多”般的低成本。

3、DeepSeek-V3的創(chuàng)新

在2025年1月，DeepSeek-V3發(fā)布。相比于V3，DeepSeek-R1創(chuàng)新性主要體現(xiàn)在“范式轉(zhuǎn)換”上。

一直以來，LLM的訓練方式都是讓模型跟著數(shù)據(jù)學生成，這種方式稱之為監(jiān)督學習（Supervised Finetuning，SFT）。而R1采用了強化學習（Reinforcement Learning，RL）的方法。

RL通俗來說就是讓模型（agent）和環(huán)境（environment）進行互動，然后通過其互動的結(jié)果進行打分（reward），從而訓練模型。大語言模型此前采用的RLHF（人類反饋強化學習）也是RL的一種。但和RLHF不同的是，R1采用的RL方法（稱為GRPO，Group Relative Policy Optimization，組相關(guān)策略優(yōu)化，下圖）并不需要一個龐大的人類標注數(shù)據(jù)庫。

他的訓練方式很簡單：讓模型自己生成過程，最后只檢查結(jié)果是否正確。如果是數(shù)學題，那么就看輸出的結(jié)果文本；如果是編程題，那就看運行后的結(jié)果。而DeepSeek發(fā)現(xiàn)，在V3的基礎(chǔ)上直接采用這種簡單的RL，竟然能讓新的模型具有推理（Reasoning）的能力，而且隨著訓練步數(shù)增多，其思維鏈（Chain-of-Thought，CoT）的長度也越來越長，并且發(fā)現(xiàn)模型開始在推理過程中自我反思。

這個純RL方法練出來的模型就是R1-Zero，是完全RL訓練出來的模型，一開始沒有教模型任何圍棋知識，一切全靠模型自己摸索，最后達到超越人類）。但是DS發(fā)現(xiàn)R1-Zero的CoT并不是很完美，最大問題是可讀性很差。

所以他們利用R1-Zero生成了一批帶有CoT的“冷啟動樣本”，然后對V3進行了一次SFT，這樣就獲得了一個初步能夠進行推理的模型（稱為模型1）。接下來他們對模型1進行一次基于GRPO的RL（和R1-Zero一樣），然后用這個模型1生成一批高質(zhì)量的推理數(shù)據(jù)集。接著，再用V3生成一批沒有推理的數(shù)據(jù)集（主要用于保證模型的文科類能力，比如寫作、事實問答）。然后將這兩個數(shù)據(jù)集合并（文理科合并），重新對V3進行SFT，獲得模型2，再對模型2進行基于GRPO的RL，最終獲得R1。

R1證明了一件事：就是如果基礎(chǔ)模型能力夠強（如V3），在RL過程中它就能自己學會推理。這也是為什么國外AI圈的人看到DS-R1之后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗镽1說明能力足夠強的模型是可以不依靠人類自己進化的（當然，嚴格來說現(xiàn)階段的reward還是需要標簽的）。

4、模式創(chuàng)新，“繞過”通用，從垂直場景切入。

根據(jù)DeepSeek公布的跑分數(shù)據(jù)顯示，DeepSeek-R1在培訓后階段大規(guī)模使用強化學習技術(shù)，在數(shù)學、代碼、自然語言推理和其他任務(wù)上，其性能可與OpenAI o1正式版本媲美，而價格僅為o1的3%。