大家在使用 AI 工具的過程中會發(fā)現(xiàn),有的 AI 反應(yīng)快得像搶答,有的半天蹦不出一個字,體驗差得不是一星半點。這背后的門道,就藏在 “推理技術(shù)” 里。
8 月 12 日,華為搞了個大動作,發(fā)布了一項超厲害的 AI 推理黑科技 —— UCM,也就是推理記憶數(shù)據(jù)管理器。
此技術(shù)有望讓推理時延大幅降低,成本也跟著減少,推理效率更是能大幅提升,堪稱 AI 超級加速器。
看組數(shù)據(jù),國外那些主流 AI 模型,一秒能輸出 200 多個詞,延遲低到只有 5 毫秒,快得讓人以為開了掛。而國內(nèi),大多一秒連 60 個詞都費勁,延遲能飆到 50-100 毫秒。
這一對比,差距就出來了。所以,解決推理效率和用戶體驗這兩大難題是非常迫切的。
那 UCM 到底是啥狠角色?簡單來說,它就是 AI 的 "記憶管家"。AI 思考時會記一堆 "臨時筆記"(業(yè)內(nèi)叫 KV Cache),UCM 能把這些筆記分好類、排好序,需要的時候一秒就能調(diào)出來,不用再瞎琢磨浪費時間。這么一來,推理上下文窗口擴(kuò)大了,高吞吐、低時延的推理體驗就這么實現(xiàn)了,每 Token 推理成本也降低了,可謂一箭三雕。
從具體技術(shù)實現(xiàn)路徑來看,它有個 “全局前綴緩存” 的本事,就像你跟 AI 嘮嗑時,它不用每次都從頭回憶,直接調(diào)取之前的聊天記錄,首條回復(fù)的延遲最多能砍 90%。而且它還特聰明,能把重要的記憶存在不同的 “抽屜” 里,處理長文本時,每秒能搞定的字?jǐn)?shù)是原來的 2-22 倍,能記住的東西也一下子多了 10 倍不止。
這技術(shù)已經(jīng)在銀聯(lián)試過水了。銀聯(lián)的 “客戶之聲” “營銷策劃” “辦公助手” 這三個場景,用上 UCM 之后效果立竿見影。
同時,隨著 AI 應(yīng)用越來越深入各種實際場景,處理的文字量瘋了一樣漲。就說火山引擎,去年 5 月每天處理的字?jǐn)?shù)才 16.4 萬億,今年直接飆了 137 倍,背后的服務(wù)器維護(hù)、電費都是天文數(shù)字。想讓 AI 用著順,就得砸更多錢搞算力,這平衡太難找了,整個行業(yè)都在犯愁。
面對此局,華為宣布 9 月要把 UCM 開源。到時候先在魔擎社區(qū)放出來,之后再給其他主流社區(qū),還會共享給業(yè)內(nèi)所有 Share Everything(共享架構(gòu))存儲廠商和生態(tài)伙伴。
華為希望行業(yè)里更多企業(yè)一起努力,推動推理框架、標(biāo)準(zhǔn)的形成。