強化學(xué)習(xí)真正上車,對標 FSD 級別的智駕來了
國內(nèi)首個強化學(xué)習(xí)大模型上車。
作者|王彬
封面|別克至境 L7
“誰說合資品牌做不好智駕?”
9 月 15 日,在別克至境 L7 的發(fā)布會上,上汽通用副總經(jīng)理薛海濤斬釘截鐵地說。他們專門在發(fā)布會場地中搭建了一個擁有 7 個停車位的泊車演示區(qū),在發(fā)布會中現(xiàn)場實測至境 L7 的智能泊車輔助功能。在中國汽車發(fā)布會中的歷史中,這可能也尚屬首次。
別克選擇的實測項目難點頗高,包括極窄垂直泊入、斷頭路垂直泊入以及斷頭路逆向限位器水平泊入等,涵蓋用戶真實用車中的多個困難場景。三項測試項目中,至境 L7 均圓滿完成。
別克至境 L7 發(fā)布會
“從今天起,關(guān)于‘合資無智駕’的論調(diào),終于可以畫上句號了。”上汽通用副總經(jīng)理薛海濤在發(fā)布會上說,“我們的表現(xiàn),不僅在合資陣營中穩(wěn)居絕對第一,即便與任何頂尖選手相比也毫不遜色。”
別克至境 L7 的底氣來自于車上首發(fā)搭載的 Momenta R6 強化學(xué)習(xí)飛輪大模型,這是國內(nèi)首個在端到端基礎(chǔ)上真正實現(xiàn)量產(chǎn)落地的強化學(xué)習(xí)大模型。
你或許會感到疑惑,強化學(xué)習(xí)能為智能駕駛帶來什么不同?它和多數(shù)車企們強調(diào)的“端到端”又有什么區(qū)別?
在業(yè)界看來,端到端的上車雖然推動了智能輔助駕駛能力的快速提升,但它大多還是基于模仿學(xué)習(xí),改進空間有限。許多研究者認為,要跨越從輔助駕駛到真正無人駕駛的門檻,僅靠模仿學(xué)習(xí)可能不夠,強化學(xué)習(xí)或許是必不可少的一步。
然而,受限于數(shù)據(jù)、安全和算法等現(xiàn)實因素,它始終未能在自動駕駛中廣泛應(yīng)用。業(yè)內(nèi)運用強化學(xué)習(xí)更為知名的案例是特斯拉 FSD。即便馬斯克已經(jīng)不再對外披露 FSD 的技術(shù)路線,但外界普遍認為特斯拉正運用強化學(xué)習(xí)訓(xùn)練 FSD。
現(xiàn)在,基于強化學(xué)習(xí)的 Momenta R6 飛輪大模型上車,意味著中國公司終于也正式加入了這場強化學(xué)習(xí)競賽。
強化學(xué)習(xí)為什么這么重要?
要理解強化學(xué)習(xí)之于自動駕駛未來的重要性,我們需要先厘清強化學(xué)習(xí)的概念。
從技術(shù)角度來說,強化學(xué)習(xí)的核心就是試錯,讓智能體通過與環(huán)境交互,不斷嘗試動作、獲得獎懲信號來改進策略。你可以回想小時候?qū)W習(xí)騎自行車的經(jīng)歷,騎車、摔倒、再騎車……最終你學(xué)會了如何掌握平衡。這其實就是一個最簡單的強化學(xué)習(xí)過程。
強化學(xué)習(xí)簡要決策示意圖
強化學(xué)習(xí)雖然早在上世紀八十年代就已成型,但它第一次真正走入大眾視野,還是 2016 年 AlphaGo 戰(zhàn)勝人類棋手李世石的那一刻。 在 AlphaGo 的訓(xùn)練中,DeepMind 就運用了強化學(xué)習(xí)技術(shù)。
后來 AlphaGo 的升級版本 AlphaGo Zero 甚至完全拋棄了人類歷史棋譜,僅使用強化學(xué)習(xí)從零訓(xùn)練三天、經(jīng)過大概 490 萬盤的自我對弈之后,就能以 100:0 的全勝戰(zhàn)績擊敗此前最強的 AlphaGo 版本。
換句話說,強化學(xué)習(xí)過去的經(jīng)驗往往證明了這樣一個道理,如果目標是讓 AI 的能力顯著超越人類,那么僅僅依賴對人類經(jīng)驗的模仿遠遠不夠,必須通過強化學(xué)習(xí)來實現(xiàn)自我博弈和持續(xù)成長。
自動駕駛領(lǐng)域同樣如此。對于自動駕駛這樣一門關(guān)乎現(xiàn)實行車安全的學(xué)科來說,它對于機器駕駛安全性的要求遠超人駕。Momenta 創(chuàng)始人及 CEO 曹旭東此前提出過一個概念,要實現(xiàn)可規(guī);臒o人駕駛,自動駕駛至少要做到 10 倍領(lǐng)先于人類駕駛的安全水平,才有可能規(guī);涞貞(yīng)用。而要實現(xiàn) 10 萬臺 Robotaxi 的大規(guī)模商用,可能需要 100-1000 倍人類駕駛的安全水平才能達到足夠的安全。
人類對于自動駕駛安全性的容忍程度遠低于人駕。人類駕駛員可能 1000 臺車中一年就會有一次重大安全事故,但只要有一起重大安全或死亡事故,往往就能摧毀一家 Robotaxi 公司。只有自動駕駛達到遠超于人駕的水平,才有可能實現(xiàn)落地。
2023 年,谷歌旗下的 Robotaxi 公司 Waymo 對外發(fā)布了一篇技術(shù)論文,稱“模仿遠遠不夠”(Imitation Is Not Enough)。Waymo 表示,僅基于模仿學(xué)習(xí)的策略往往無法充分解決安全和可靠性問題。他們嘗試將模仿學(xué)習(xí)與強化學(xué)習(xí)結(jié)合,僅僅只通過 10 萬英里的城市駕駛數(shù)據(jù)的訓(xùn)練,就可極大提高最難場景下的安全可靠性,失敗率降低超過 38%。
Waymo 官網(wǎng)發(fā)布的技術(shù)論文
簡而言之,自動駕駛?cè)绻胍嬲龑崿F(xiàn)滿足落地 Robotaxi 場景的安全要求,必須要通過強化學(xué)習(xí)才能實現(xiàn)。
行業(yè)人士也對外表達過不少類似觀點。小馬智行創(chuàng)始人樓天城說,模仿學(xué)習(xí)的上限甚至遠達不到人類。模仿學(xué)習(xí)致命問題在于它不是閉環(huán)訓(xùn)練,人類駕駛員用了許多車沒有掌握的信息才做出駕駛決策,如果車沒有掌握這些信息,越模仿差得越遠。
Momenta 創(chuàng)始人曹旭東說,過去一段式端到端模型基于模仿學(xué)習(xí),容易出現(xiàn)的情況就是“知其然不知其所以然”,在一些安全的長尾場景就沒有很好的反應(yīng)或者泛化能力。
特斯拉 FSD 之所以能展現(xiàn)出極強的適應(yīng)能力,即便未在國內(nèi)實地訓(xùn)練也能達成不錯效果,部分原因或許也與強化學(xué)習(xí)的應(yīng)用有關(guān)。
即便馬斯克不再對外透露 FSD 的技術(shù)路線,但我們?nèi)匀豢梢詮奶厮估恼衅竼⑹轮幸桓Q端倪。特斯拉最新的招聘啟事中明確指出,應(yīng)聘者需要利用生成建模、模仿學(xué)習(xí)及強化學(xué)習(xí)等技術(shù)來提升駕駛模型的規(guī)劃和推理能力。
特斯拉官網(wǎng)招聘頁面
同時,特斯拉也在機器人項目中 Optimus 的訓(xùn)練中應(yīng)用強化學(xué)習(xí)。今年 5 月,Optimus 公布兩段機器人舞蹈視頻,展現(xiàn)出極強的平衡協(xié)調(diào)性。特斯拉 Optimus 副總裁米蘭·科瓦奇(Milan Kovac)透露,Optimus 的舞蹈技能“完全通過模擬環(huán)境中的強化學(xué)習(xí)訓(xùn)練”得來,無需人類演示或物理試錯。
米蘭·科瓦奇轉(zhuǎn)發(fā)馬斯克的帖文
某種程度上,強化學(xué)習(xí)在自動駕駛與機器人中的應(yīng)用是相通的。此前曹旭東接受媒體采訪時曾表示,自動駕駛和通用機器人的能力交集或大于 80%。
強化學(xué)習(xí)上車,智駕更安全
強化學(xué)習(xí)這么重要,為什么過去一直沒有在自動駕駛領(lǐng)域大規(guī)模普及?
有許多現(xiàn)實問題的制約。比如最簡單的安全問題,強化學(xué)習(xí)需要通過不斷試錯來優(yōu)化策略,而在真實道路上試錯成本極高,任何錯誤都有可能引發(fā)交通事故。數(shù)據(jù)問題也很突出,行業(yè)早期大量高質(zhì)量、覆蓋長尾場景的數(shù)據(jù)難以獲取。算力和模型的限制,也讓復(fù)雜策略難以在可接受時間內(nèi)完成,更不用說獎勵函數(shù)的設(shè)計問題。種種難題的制約,導(dǎo)致強化學(xué)習(xí)長期停留在研究階段,難以直接落地。
尤其是對于當(dāng)前密集推動智能駕駛上車的車企們來說。在 L2 階段,智能駕駛的能用比好用更重要,落地是第一步,因而此前行業(yè)先后從規(guī)則算法到端到端,目的之一就是先讓汽車用上智能輔助駕駛。
而此前行業(yè)中一早就瞄準完全無人駕駛的 Robotaxi 創(chuàng)業(yè)公司們,則不得不面臨難以規(guī);涞氐睦Ь。事實上早期大多數(shù) Robotaxi 公司們只是小范圍內(nèi)運營,依賴局部區(qū)域的高精地圖以及車身上的大面積傳感器,但往往也導(dǎo)致無法收集到足夠多的長尾數(shù)據(jù)。
Momenta 是其中的另類。這家公司雖然同樣瞄準最終的完全無人駕駛,但他們選擇“兩條腿”走路,一條腿是推動 L2 級別智能輔助駕駛的量產(chǎn),來獲取更多高質(zhì)量的長尾數(shù)據(jù);另一條腿是發(fā)力更前沿的 Robotaxi 自動駕駛,探索技術(shù)突破的同時與 L2 落地形成反哺。
Momenta 數(shù)據(jù)飛輪
曹旭東認為,如果要實現(xiàn)可規(guī); L4,起碼要積累 1000 億公里的行車數(shù)據(jù),這相當(dāng)于 1000 萬臺乘用車跑一年。而僅靠自有車隊難以實現(xiàn)。他們將這一戰(zhàn)略歸納為“一個飛輪兩條腿”,“一個飛輪”的核心是數(shù)據(jù)驅(qū)動,兩條腿則是 L2 量產(chǎn)與 Robotaxi 共同發(fā)力,形成一個高效的數(shù)據(jù)協(xié)同。
數(shù)據(jù)驅(qū)動的弊端之一是 Momenta 早期不夠性感,但時間會證明一切。從 2022 年實現(xiàn)首款量產(chǎn)車型落地開始,Momenta 的飛輪越轉(zhuǎn)越快,定點量產(chǎn)車型不斷增多,技術(shù)落地也越來越快。
Momenta 合作伙伴
尤其最近 Momenta R6 飛輪大模型的推出,這是國內(nèi)首個在端到端基礎(chǔ)上真正實現(xiàn)量產(chǎn)落地的強化學(xué)習(xí)大模型。在此之前,行業(yè)中雖然也有不少公司意識到了強化學(xué)習(xí)的重要性,但更多使用模仿學(xué)習(xí)與強化學(xué)習(xí)結(jié)合的路線。先通過模仿學(xué)習(xí)來訓(xùn)練出來一個端到端基礎(chǔ)模型,再用強化學(xué)習(xí)實現(xiàn)長尾復(fù)雜場景的攻堅。
Momenta 很早就開始探索強化學(xué)習(xí)的應(yīng)用。去年他們就已經(jīng)成功驗證了強化學(xué)習(xí)的算法、原型,今年開始推動 R6 飛輪大模型的真正量產(chǎn)落地。
Momenta R6 飛輪大模型
基于 30 億+公里實戰(zhàn)數(shù)據(jù)訓(xùn)練的 Momenta R6 飛輪大模型可以帶來諸多智能駕駛體驗的提升,尤其在安全、擬人、高效等方面。比如在面對加塞、鬼探頭、盲區(qū)遮擋的復(fù)雜路況能夠精準預(yù)判,而在強化學(xué)習(xí)加持下,它可以比模仿學(xué)習(xí)表現(xiàn)得更像人駕,在復(fù)雜場景下更自然流暢。
率先搭載 Momenta R6 飛輪大模型的至境 L7,可以實現(xiàn)“無斷點”的城市 NOA,并在業(yè)內(nèi)首批發(fā)布“多步變一步,不停車一鍵泊入”等在內(nèi)的全場景輔助駕駛功能。
別克至境 L7 發(fā)布會
更重要的是,強化學(xué)習(xí)的介入讓至境 L7 的智能輔助駕駛安全性大大提升。至境 L7 的發(fā)布會前,別克專門復(fù)現(xiàn)了此前懂車帝智駕橫評測試中最困難的兩道考題,分別是高速事故場景模擬“消失的前車”、城市事故場景模擬“盲區(qū)藏輛左轉(zhuǎn)車”。兩項挑戰(zhàn)中,至境 L7 均挑戰(zhàn)通過,主動制動避險。
“相比于模仿型大模型,它除了使用人類的好數(shù)據(jù)之外,還會使用一些極限場景的挑戰(zhàn)數(shù)據(jù)或者壞數(shù)據(jù)。”曹旭東介紹,這樣模型學(xué)習(xí)的就不是人的駕駛,因為這些極限場景下人的處理本身都不太好,但通過強化學(xué)習(xí)可以探索出更安全、更安心和更絲滑的駕駛策略。
與特斯拉 FSD 站在同一維度競爭
數(shù)據(jù)飛輪是 Momenta 可以率先實現(xiàn)強化學(xué)習(xí)落地的重要原因之一。強化學(xué)習(xí)的基礎(chǔ)之一就是積累起足夠多的覆蓋長尾、極限場景的高質(zhì)量數(shù)據(jù),此后再通過仿真場景訓(xùn)練和實車驗證測試。而 Momenta 正是目前國內(nèi)城市 NOA 第三方智駕市場市占率最高的公司之一。
Momenta 是如此強調(diào)數(shù)據(jù)的重要性,以至于不少行業(yè)人士戲稱他們是一家數(shù)據(jù)公司。《中國企業(yè)家》此前在報道中引述一位投資人的說法,“他們在搭建數(shù)據(jù)飛輪上非常專注,甚至有點像一個數(shù)據(jù)公司。”
行業(yè)中另一個專注于積累數(shù)據(jù)積累與強化學(xué)習(xí)訓(xùn)練的公司是特斯拉。馬斯克在不同場合下都多次表達過數(shù)據(jù)的重要性,認為他們最大的優(yōu)勢之一就是龐大的量產(chǎn)車輛和每天產(chǎn)生的行駛數(shù)據(jù)。
事實上,特斯拉 FSD 本身就是一個閉環(huán)的高效數(shù)據(jù)模型。每一輛行駛在路面上的特斯拉汽車都在源源不斷地為特斯拉產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)又不斷反饋到特斯拉的云端超算中心。
為了加速數(shù)據(jù)收集和驗證,特斯拉甚至在車端部署了一個名為影子模式(Shadow Mode)的機制,當(dāng)車輛在真實路面上行駛時,系統(tǒng)會進行模擬決策來與人駕進行對比和觀察,評估和改進算法。
特斯拉影子模式
數(shù)據(jù)驅(qū)動的路徑讓 FSD 快速成長。自 2023 年 FSD V12 版本推出以來,特斯拉在自動駕駛道路上一路狂飆。今年 6 月,特斯拉 Robotaxi 服務(wù)首次在美國奧斯汀落地運營,初期僅在小范圍內(nèi)運營。僅僅 2 個月后,特斯拉 Robotaxi 的覆蓋范圍就增加至 173 平方英里,車隊運營規(guī)模擴大 50%。
馬斯克計劃,Robotaxi 車隊到今年底要覆蓋美國一半人口,“服務(wù)區(qū)域和車隊數(shù)量都將呈現(xiàn)指數(shù)級增長。”在他看來,隨著 Robotaxi 進一步擴張,每輛車每天積累的行駛數(shù)據(jù)量將是普通車輛的十倍,這些數(shù)據(jù)或?qū)⒎床?FSD 的訓(xùn)練,幫助現(xiàn)有車型持續(xù)提升自動駕駛性能。
特斯拉的這套邏輯和 Momenta 的“一個飛輪兩條腿”幾乎沒有什么不同。同樣都是通過大面積的量產(chǎn)車輛積累海量數(shù)據(jù),同樣也都是通過 Robotaxi 來反哺智能駕駛訓(xùn)練。曹旭東此前對外解釋過 Momenta 的兩條腿戰(zhàn)略,“先把全無人系統(tǒng)先放到測試車上跑,相對成熟了,再往量產(chǎn)推;然后量產(chǎn)的數(shù)據(jù)回來了,又能用于發(fā)展下一代全無人產(chǎn)品,兩條腿協(xié)同。”
今年 5 月,Momenta 與享道出行達成戰(zhàn)略合作,雙方將共同打造基于前裝量產(chǎn)的 Robotaxi 車隊,并率先于上海啟動試運營。同一時期,Momenta 還與 Uber 達成戰(zhàn)略合作,首批合作商業(yè)化落地將于 2026 年初在歐洲啟動。9 月 8 日,雙方共同宣布德國慕尼黑將作為聯(lián)合 Robotaxi 項目的首發(fā)城市。
Momenta CEO 曹旭東與 Uber CFO Prashanth Mahendra-Rajah
和市面上多數(shù)基于量產(chǎn)車型改造的 Robotaxi 服務(wù)不同,Momenta 落地運營的 Robotaxi 車隊完全基于量產(chǎn)車型打造。比如與享道出行的合作中,Robotaxi 車隊就將復(fù)用現(xiàn)有上汽智己 LS6 的硬件,無需額外后裝改造。這和特斯拉使用量產(chǎn) Model Y 落地 Robotaxi 類似,馬斯克同樣執(zhí)著于使用量產(chǎn)車型實現(xiàn) Robotaxi 服務(wù)。
Momenta 在慕尼黑開啟智能輔助駕駛
在曹旭東看來,強化學(xué)習(xí)大模型的上車將會推動智能駕駛迭代速度越來越快。今年以來,已經(jīng)有不少行業(yè)人士開始強調(diào)強化學(xué)習(xí)的重要性,無論是 Robotaxi 創(chuàng)業(yè)公司還是新能源車企。即便各家的技術(shù)路線有所不同,有的強調(diào)世界模型,有的強調(diào) VLA,都無一例外都提出強化學(xué)習(xí)的重要性。
今年初,DeepSeek-R1 通過純強化學(xué)習(xí)的訓(xùn)練機制也讓不少自動駕駛行業(yè)人士受到啟發(fā)。佐思汽研發(fā)布的調(diào)研報告指出,強化學(xué)習(xí)領(lǐng)域的技術(shù)創(chuàng)新成果,同樣能夠遷移應(yīng)用至端到端智能駕駛領(lǐng)域;趶娀瘜W(xué)習(xí)的大模型技術(shù)路線,為端到端智能駕駛算法的研發(fā)提供了全新思路,有望突破傳統(tǒng)模仿學(xué)習(xí)的限制。
現(xiàn)在,隨著 Momenta R6 飛輪大模型的上車,強化學(xué)習(xí)開始真正在量產(chǎn)車型中應(yīng)用。但它更重要的意義或許在于,智能駕駛系統(tǒng)將不再只是單純地模仿人類,而是可以從真實的駕駛過程中實現(xiàn)自我迭代、自我成長,一個智駕有望超越人駕的安全未來正在到來。
更早之前,曹旭東總結(jié)過智駕領(lǐng)域的摩爾定律,軟件體驗每兩年提升 10 倍;硬件 BOM 成本(原材料成本)每兩年降一半。他們的目標是超越智駕的摩爾定律。
©山上版權(quán)所有,未經(jīng)授權(quán),禁止轉(zhuǎn)載
原文標題 : 強化學(xué)習(xí)真正上車,對標 FSD 級別的智駕來了
