亚洲av成人无码网天堂,少妇白浆高潮无码免费区,小污女小欲女导航,色欲久久综合亚洲精品蜜桃,亚洲,欧美,日韩,综合

訂閱
糾錯
加入自媒體

端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

2025年的CVPR自動駕駛Workshop上,香港大學(xué)的Li Hongyang做了一篇名為《自動駕駛端到端方法:現(xiàn)狀與展望》的開場演講。

演講給了端到端一個定義,并介紹了端到端的前世今生,以及挑戰(zhàn),最后提出“世界引擎”(World Engine)的概念、最新進展(包括三個具體工作)、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。

本文根據(jù)Li Hongyang的演講內(nèi)容,結(jié)合自動駕駛開發(fā)應(yīng)用的現(xiàn)狀,給一些概念性的總結(jié),結(jié)合他說的端到端1.5時代的兩個分支,大膽的給當前VLA和WM下一個概念結(jié)論,最后回歸到Li Hongyang的主旨,端到端都需要一個世界引擎。

端到端自動駕駛的定義

端到端自動駕駛的定義是“學(xué)習(xí)一個單一模型,直接將原始傳感器輸入映射到駕駛場景并輸出控制指令”。它用一個統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。

這里的“函數(shù)”意味著給定觀察(例如圖像、點云或車輛信息)或目標,模型直接輸出控制指令(例如轉(zhuǎn)向、剎車或油門)。

訓(xùn)練流程非常簡單,可以是通過大量標注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí),或者通過設(shè)計獎勵的 RL強化學(xué)習(xí)。

所以,其實端到端是自動駕駛算法里面最廣的一個概念,不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。

端到端自動駕駛的發(fā)展路線圖

從20多年前簡單的黑白圖像輸入開始。

多年來,出現(xiàn)了許多方法,可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團隊的可解釋性網(wǎng)絡(luò)(使用多模態(tài)),以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。

直到最近,出現(xiàn)了一些明確設(shè)計模塊的顯式方法,例如包含目標跟蹤、地圖和運動規(guī)劃的模塊,這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時代

而現(xiàn)在我們正處于“1.5代”的端到端自動駕駛的尾巴上。之所以稱為“1.5代”,我們已進入基礎(chǔ)模型(Foundation Models)時代,正在解決一些長尾問題(corner cases)。1.5端到端時代,我們有兩個分支:

一個涉及擴散(Diffusion)或使用擴散管道以及世界模型的分支?梢钥吹较馜rive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個視頻生成模型,旨在實現(xiàn)更安全的輔助和自動化駕駛。這些模型利用多視圖圖像和不同的動作來預(yù)測不同類型的視頻,以生成真實感和多樣性。這個分枝可以總結(jié)為world model世界模型分枝。

另外一條分枝是基于大型語言模型(LLMs)的應(yīng)用。例如,Java LM提出了一種“草圖維基”方式,以更好地理解駕駛場景。還有Lingo Tool和早期的工作Job VRM,后者被認為是自動駕駛雙系統(tǒng)的一個非常早期工作,它利用了基礎(chǔ)模型更高的準確性,但缺點是延遲較高。因此,較小的模型可以預(yù)測大多數(shù)情況,并與基礎(chǔ)模型協(xié)同工作。這個可以認為為現(xiàn)在VLM/VLA分支。

有了這兩種方法論之后,Li Hongyang認為端到端開始步入第二代,目前,自動駕駛研究已進入第二階段,需要處理大量的生產(chǎn)問題和工程工作。

有了端到端的架構(gòu),接下來就是大量的數(shù)據(jù)去訓(xùn)模型,下圖為一個典型的訓(xùn)練和部署管道,包括數(shù)據(jù)收集(通常由專家駕駛)、訓(xùn)練(在固定的日志和回放數(shù)據(jù)上),以及評估和從推理中獲得反饋,然后收集更多接管和不良數(shù)據(jù)。

真實世界部署的挑戰(zhàn)

我們能否收集所有情況或極端情況,并最終將其真正轉(zhuǎn)化為L4或L5級別的產(chǎn)品。

Li Hongyang引用了一個他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器,該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實時圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”(MPI)指標的年度變化,可以看到MPI在增加,這是一個非常有前景的積極信號,說明數(shù)據(jù)量的增加確實可以讓端到端大模型無限接近自動駕駛。

但是,問題來了

看下圖右側(cè),X軸表示正常駕駛和安全關(guān)鍵或瀕臨事故事件,隨著駕駛里程累計,就可能會發(fā)生事故。

Y軸有兩個,黑色曲線表示每英里發(fā)生危險情況的概率,紅色曲線表示部署成本。隨著大多數(shù)感知問題已經(jīng)解決,遇到挑戰(zhàn)性案例的概率變得非常罕見。但此時,部署成本變得非常昂貴,因為需要龐大的車隊來收集所有危險案例。

剩余20%的長尾問題需要海量數(shù)據(jù)。原因是,有價值的極端情況變得越來越稀有,而收集危險駕駛數(shù)據(jù)可能會危及生命。

于是 Li Hongyang提出了一個“世界引擎”(World Engine)概念,可以解決這些挑戰(zhàn)。

其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法,例如UniAD或V-AD等。通過與環(huán)境交互(可以稱之為世界模型或與環(huán)境互動),給定當前的提示或動作(例如右轉(zhuǎn)),我們希望從失敗中學(xué)習(xí),并改進當前的端到端規(guī)劃器,使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問題是如何生成這些有價值的極端情況。這主要是由兩部分組成:

極端情況生成(從原始數(shù)據(jù)中的源場景生成安全關(guān)鍵場景),這大大節(jié)省了沒有龐大車隊時的成本。

這在行為層面上對模型進行建模,基本意味著給定軌跡,之后要對環(huán)境與自車之間的行為進行建模。然后,一旦有了軌跡,就需要渲染這些內(nèi)容,這就是所謂的生成或渲染視頻,即傳感器仿真。

有了這么一個數(shù)據(jù)引擎(Data Engine),就可以來生成大量的極端情況場景,用于訓(xùn)練。

Li Hongyang提出還有一個算法引擎(Algorithm Engine),它沒有在這里繪制,因為它仍在開發(fā)中。

有了數(shù)據(jù)引擎和算法引擎,他們共同構(gòu)成了“世界引擎”的整個管道,之后可以用于改進和訓(xùn)練任意的端到端算法,幫助自動駕駛達成。

寫在最后

其實最近,VLA和WM世界模型打的火熱,說實話如果從詞的概念上來講,WM這個瓶子更大,能裝的概念更多,但也意味著更能糊弄。

Jack認為 VLA應(yīng)該是目前比較切合實際和看得到路徑的方法,WM應(yīng)該是終極目標,但目前國內(nèi)提這個概念的公司多多少少都是想占領(lǐng)詞匯和用戶心智高地,其實瓶子里面裝的是啥,多半夸張。

參考文章以及圖片

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-

       原文標題 : 端到端自動駕駛的前世今生:不管VLA還是WM世界模型,都需要世界引擎。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號