太深太粗太爽太猛了视频,呻吟喘娇嫩人妻少妇,羞羞视频在线观看

端到端自動駕駛的前世今生：不管VLA還是WM世界模型,都需要世界引擎。

2025-09-10 14:00

2025年的CVPR自動駕駛Workshop上，香港大學(xué)的Li Hongyang做了一篇名為《自動駕駛端到端方法：現(xiàn)狀與展望》的開場演講。

演講給了端到端一個定義，并介紹了端到端的前世今生，以及挑戰(zhàn)，最后提出“世界引擎”（World Engine）的概念、最新進展（包括三個具體工作）、以及該領(lǐng)域的一些關(guān)鍵挑戰(zhàn)。

本文根據(jù)Li Hongyang的演講內(nèi)容，結(jié)合自動駕駛開發(fā)應(yīng)用的現(xiàn)狀，給一些概念性的總結(jié)，結(jié)合他說的端到端1.5時代的兩個分支，大膽的給當前VLA和WM下一個概念結(jié)論，最后回歸到Li Hongyang的主旨，端到端都需要一個世界引擎。

端到端自動駕駛的定義

端到端自動駕駛的定義是“學(xué)習(xí)一個單一模型，直接將原始傳感器輸入映射到駕駛場景并輸出控制指令”。它用一個統(tǒng)一的函數(shù)取代了傳統(tǒng)的模塊化管道。

這里的“函數(shù)”意味著給定觀察（例如圖像、點云或車輛信息）或目標，模型直接輸出控制指令（例如轉(zhuǎn)向、剎車或油門）。

訓(xùn)練流程非常簡單，可以是通過大量標注的SL監(jiān)督學(xué)習(xí)、IL模仿學(xué)習(xí)，或者通過設(shè)計獎勵的 RL強化學(xué)習(xí)。

所以，其實端到端是自動駕駛算法里面最廣的一個概念，不管現(xiàn)在的VLA還是世界模型都是屬于端到端的一種。

端到端自動駕駛的發(fā)展路線圖

從20多年前簡單的黑白圖像輸入開始。

多年來，出現(xiàn)了許多方法，可以分為條件模仿學(xué)習(xí)、泛化、Andrew Gigard團隊的可解釋性網(wǎng)絡(luò)（使用多模態(tài)），以及PPJL、Soft ACT、ACO等在預(yù)訓(xùn)練階段的工作。

直到最近，出現(xiàn)了一些明確設(shè)計模塊的顯式方法，例如包含目標跟蹤、地圖和運動規(guī)劃的模塊，這就是模塊化端到端規(guī)劃與基礎(chǔ)模型時代

而現(xiàn)在我們正處于“1.5代”的端到端自動駕駛的尾巴上。之所以稱為“1.5代”，我們已進入基礎(chǔ)模型（Foundation Models）時代，正在解決一些長尾問題（corner cases）。1.5端到端時代，我們有兩個分支：

一個涉及擴散（Diffusion）或使用擴散管道以及世界模型的分支�？梢钥吹较馜rive Dreamer、Cosmos Predict One和導(dǎo)航世界模型。Gaia 2也是一個視頻生成模型，旨在實現(xiàn)更安全的輔助和自動化駕駛。這些模型利用多視圖圖像和不同的動作來預(yù)測不同類型的視頻，以生成真實感和多樣性。這個分枝可以總結(jié)為world model世界模型分枝。

另外一條分枝是基于大型語言模型（LLMs）的應(yīng)用。例如，Java LM提出了一種“草圖維基”方式，以更好地理解駕駛場景。還有Lingo Tool和早期的工作Job VRM，后者被認為是自動駕駛雙系統(tǒng)的一個非常早期工作，它利用了基礎(chǔ)模型更高的準確性，但缺點是延遲較高。因此，較小的模型可以預(yù)測大多數(shù)情況，并與基礎(chǔ)模型協(xié)同工作。這個可以認為為現(xiàn)在VLM/VLA分支。

有了這兩種方法論之后，Li Hongyang認為端到端開始步入第二代，目前，自動駕駛研究已進入第二階段，需要處理大量的生產(chǎn)問題和工程工作。

有了端到端的架構(gòu)，接下來就是大量的數(shù)據(jù)去訓(xùn)模型，下圖為一個典型的訓(xùn)練和部署管道，包括數(shù)據(jù)收集（通常由專家駕駛）、訓(xùn)練（在固定的日志和回放數(shù)據(jù)上），以及評估和從推理中獲得反饋，然后收集更多接管和不良數(shù)據(jù)。

真實世界部署的挑戰(zhàn)

我們能否收集所有情況或極端情況，并最終將其真正轉(zhuǎn)化為L4或L5級別的產(chǎn)品。

Li Hongyang引用了一個他非常喜歡的網(wǎng)站——特斯拉FSD追蹤器，該網(wǎng)站主要收集北美城市中大量的客戶數(shù)據(jù)。網(wǎng)站的實時圖顯示了特斯拉FSD在不同版本下“每次接管跑的公里數(shù)”（MPI）指標的年度變化，可以看到MPI在增加，這是一個非常有前景的積極信號，說明數(shù)據(jù)量的增加確實可以讓端到端大模型無限接近自動駕駛。

但是，問題來了

看下圖右側(cè)，X軸表示正常駕駛和安全關(guān)鍵或瀕臨事故事件，隨著駕駛里程累計，就可能會發(fā)生事故。

Y軸有兩個，黑色曲線表示每英里發(fā)生危險情況的概率，紅色曲線表示部署成本。隨著大多數(shù)感知問題已經(jīng)解決，遇到挑戰(zhàn)性案例的概率變得非常罕見。但此時，部署成本變得非常昂貴，因為需要龐大的車隊來收集所有危險案例。

剩余20%的長尾問題需要海量數(shù)據(jù)。原因是，有價值的極端情況變得越來越稀有，而收集危險駕駛數(shù)據(jù)可能會危及生命。

于是 Li Hongyang提出了一個“世界引擎”（World Engine）概念，可以解決這些挑戰(zhàn)。

其核心思想是從人類專家駕駛中學(xué)習(xí)。該策略仍是任意的端到端規(guī)劃算法，例如UniAD或V-AD等。通過與環(huán)境交互（可以稱之為世界模型或與環(huán)境互動），給定當前的提示或動作（例如右轉(zhuǎn)），我們希望從失敗中學(xué)習(xí)，并改進當前的端到端規(guī)劃器，使其適應(yīng)生產(chǎn)環(huán)境。關(guān)鍵問題是如何生成這些有價值的極端情況。這主要是由兩部分組成：

極端情況生成（從原始數(shù)據(jù)中的源場景生成安全關(guān)鍵場景），這大大節(jié)省了沒有龐大車隊時的成本。

這在行為層面上對模型進行建模，基本意味著給定軌跡，之后要對環(huán)境與自車之間的行為進行建模。然后，一旦有了軌跡，就需要渲染這些內(nèi)容，這就是所謂的生成或渲染視頻，即傳感器仿真。