端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。
2025年的CVPR自動駕駛Workshop上,香港大學(xué)的Li Hongyang做了一篇名為《自動駕駛端到端方法:現(xiàn)狀與展望》的開場演講。
演講給了端到端一個定義,并介紹了端到端的前世今生,以及挑戰(zhàn),最后提出“世界引擎”(World Engine)的概念、最新進展(包括三個具體工作)、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。
本文根據(jù)Li Hongyang的演講內(nèi)容,結(jié)合自動駕駛開發(fā)應(yīng)用的現(xiàn)狀,給一些概念性的總結(jié),結(jié)合他說的端到端1.5時代的兩個分支,大膽的給當前VLA和WM下一個概念結(jié)論,最后回歸到Li Hongyang的主旨,端到端都需要一個世界引擎。
端到端自動駕駛的定義
端到端自動駕駛的定義是“學(xué)習(xí)一個單一模型,直接將原始傳感器輸入映射到駕駛場景并輸出控制指令”。它用一個統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。
這里的“函數(shù)”意味著給定觀察(例如圖像、點云或車輛信息)或目標,模型直接輸出控制指令(例如轉(zhuǎn)向、剎車或油門)。
訓(xùn)練流程非常簡單,可以是通過大量標注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí),或者通過設(shè)計獎勵的 RL強化學(xué)習(xí)。
所以,其實端到端是自動駕駛算法里面最廣的一個概念,不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。
端到端自動駕駛的發(fā)展路線圖
從20多年前簡單的黑白圖像輸入開始。
多年來,出現(xiàn)了許多方法,可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團隊的可解釋性網(wǎng)絡(luò)(使用多模態(tài)),以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。
直到最近,出現(xiàn)了一些明確設(shè)計模塊的顯式方法,例如包含目標跟蹤、地圖和運動規(guī)劃的模塊,這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時代
而現(xiàn)在我們正處于“1.5代”的端到端自動駕駛的尾巴上。之所以稱為“1.5代”,我們已進入基礎(chǔ)模型(Foundation Models)時代,正在解決一些長尾問題(corner cases)。1.5端到端時代,我們有兩個分支:
一個涉及擴散(Diffusion)或使用擴散管道以及世界模型的分支?梢钥吹较馜rive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個視頻生成模型,旨在實現(xiàn)更安全的輔助和自動化駕駛。這些模型利用多視圖圖像和不同的動作來預(yù)測不同類型的視頻,以生成真實感和多樣性。這個分枝可以總結(jié)為world model世界模型分枝。
另外一條分枝是基于大型語言模型(LLMs)的應(yīng)用。例如,Java LM提出了一種“草圖維基”方式,以更好地理解駕駛場景。還有Lingo Tool和早期的工作Job VRM,后者被認為是自動駕駛雙系統(tǒng)的一個非常早期工作,它利用了基礎(chǔ)模型更高的準確性,但缺點是延遲較高。因此,較小的模型可以預(yù)測大多數(shù)情況,并與基礎(chǔ)模型協(xié)同工作。這個可以認為為現(xiàn)在VLM/VLA分支。
有了這兩種方法論之后,Li Hongyang認為端到端開始步入第二代,目前,自動駕駛研究已進入第二階段,需要處理大量的生產(chǎn)問題和工程工作。
有了端到端的架構(gòu),接下來就是大量的數(shù)據(jù)去訓(xùn)模型,下圖為一個典型的訓(xùn)練和部署管道,包括數(shù)據(jù)收集(通常由專家駕駛)、訓(xùn)練(在固定的日志和回放數(shù)據(jù)上),以及評估和從推理中獲得反饋,然后收集更多接管和不良數(shù)據(jù)。
真實世界部署的挑戰(zhàn)
我們能否收集所有情況或極端情況,并最終將其真正轉(zhuǎn)化為L4或L5級別的產(chǎn)品。
Li Hongyang引用了一個他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器,該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實時圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”(MPI)指標的年度變化,可以看到MPI在增加,這是一個非常有前景的積極信號,說明數(shù)據(jù)量的增加確實可以讓端到端大模型無限接近自動駕駛。
但是,問題來了
看下圖右側(cè),X軸表示正常駕駛和安全關(guān)鍵或瀕臨事故事件,隨著駕駛里程累計,就可能會發(fā)生事故。
Y軸有兩個,黑色曲線表示每英里發(fā)生危險情況的概率,紅色曲線表示部署成本。隨著大多數(shù)感知問題已經(jīng)解決,遇到挑戰(zhàn)性案例的概率變得非常罕見。但此時,部署成本變得非常昂貴,因為需要龐大的車隊來收集所有危險案例。
剩余20%的長尾問題需要海量數(shù)據(jù)。原因是,有價值的極端情況變得越來越稀有,而收集危險駕駛數(shù)據(jù)可能會危及生命。
于是 Li Hongyang提出了一個“世界引擎”(World Engine)概念,可以解決這些挑戰(zhàn)。
其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法,例如UniAD或V-AD等。通過與環(huán)境交互(可以稱之為世界模型或與環(huán)境互動),給定當前的提示或動作(例如右轉(zhuǎn)),我們希望從失敗中學(xué)習(xí),并改進當前的端到端規(guī)劃器,使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問題是如何生成這些有價值的極端情況。這主要是由兩部分組成:
極端情況生成(從原始數(shù)據(jù)中的源場景生成安全關(guān)鍵場景),這大大節(jié)省了沒有龐大車隊時的成本。
這在行為層面上對模型進行建模,基本意味著給定軌跡,之后要對環(huán)境與自車之間的行為進行建模。然后,一旦有了軌跡,就需要渲染這些內(nèi)容,這就是所謂的生成或渲染視頻,即傳感器仿真。
有了這么一個數(shù)據(jù)引擎(Data Engine),就可以來生成大量的極端情況場景,用于訓(xùn)練。
Li Hongyang提出還有一個算法引擎(Algorithm Engine),它沒有在這里繪制,因為它仍在開發(fā)中。
有了數(shù)據(jù)引擎和算法引擎,他們共同構(gòu)成了“世界引擎”的整個管道,之后可以用于改進和訓(xùn)練任意的端到端算法,幫助自動駕駛達成。
寫在最后
其實最近,VLA和WM世界模型打的火熱,說實話如果從詞的概念上來講,WM這個瓶子更大,能裝的概念更多,但也意味著更能糊弄。
Jack認為 VLA應(yīng)該是目前比較切合實際和看得到路徑的方法,WM應(yīng)該是終極目標,但目前國內(nèi)提這個概念的公司多多少少都是想占領(lǐng)詞匯和用戶心智高地,其實瓶子里面裝的是啥,多半夸張。
參考文章以及圖片
*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-
原文標題 : 端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字