婷婷五月综合激情,十八岁污网站在线观看

Waymo自動(dòng)駕駛最新探索實(shí)踐：世界模型、長(zhǎng)尾問(wèn)題、最重要的東西

2025-09-15 11:46

輔助駕駛/自動(dòng)駕駛產(chǎn)業(yè)應(yīng)該最終都會(huì)交叉，因?yàn)樗麄兯惴ㄜ浖牡讓舆壿嬍且粯拥�。我們之前文章《IAA 2025 慕尼黑車展：中國(guó)汽車軍團(tuán)們，從“貿(mào)易出口”到“勢(shì)不可擋”》也分享到了，中國(guó)在輔助駕駛開(kāi)拓算法的公司不管Momenta、元戎、大疆都也和其他專做L4的公司一樣在歐洲和中東各地掘金L4。

本文是基于Waymo 感知算法負(fù)責(zé)人 Wu Chen女士在今年CVPR上演講內(nèi)容總結(jié)，再根據(jù)自身經(jīng)驗(yàn)分析自動(dòng)駕駛算法、發(fā)展現(xiàn)狀以及對(duì)于自動(dòng)駕駛到底最重要的東西是什么。

構(gòu)建一個(gè)世界模型

Waymo表示，他們開(kāi)發(fā)了一個(gè)名為 Waymo 基礎(chǔ)模型的大規(guī)模 AI 模型，該模型支持車輛感知周圍環(huán)境、預(yù)測(cè)道路上其他車輛的行為、模擬場(chǎng)景并做出駕駛決策。

這個(gè)龐大模型的功能類似于 ChatGPT 等大型語(yǔ)言模型 (LLM)，這些模型基于海量數(shù)據(jù)集進(jìn)行訓(xùn)練，以學(xué)習(xí)模式并進(jìn)行預(yù)測(cè)。正如OpenAI 和 Google 等公司構(gòu)建了更新的多模態(tài)模型來(lái)整合不同類型的數(shù)據(jù)（例如文本、圖像、音頻或視頻）一樣，Waymo 的 AI 能夠整合來(lái)自多個(gè)來(lái)源的傳感器數(shù)據(jù)來(lái)理解其周圍環(huán)境。

Waymo 基礎(chǔ)模型是一個(gè)單一的大型模型，但車端是一個(gè)較小的模型，不過(guò)這個(gè)模型是從更大的模型中“提煉”出來(lái)的——因?yàn)樗枰銐蚓o湊才能部署在車端。

大型模型被用作“教師”模型，將其知識(shí)和能力傳授給較小的“學(xué)生”模型——這一過(guò)程在生成式人工智能領(lǐng)域被廣泛使用。小型模型針對(duì)速度和效率進(jìn)行了優(yōu)化，并在每輛車上實(shí)時(shí)運(yùn)行，同時(shí)仍保留駕駛汽車所需的關(guān)鍵決策能力。

因此，感知和行為任務(wù)（包括感知物體、預(yù)測(cè)其他道路使用者的行為以及規(guī)劃汽車的下一步行動(dòng)）都可以在車上實(shí)時(shí)進(jìn)行。

云端的更大的模型還可以模擬真實(shí)的駕駛環(huán)境，在部署到 Waymo 車輛之前，進(jìn)行虛擬測(cè)試和驗(yàn)證其決策。

所以，Waymo的世界模型可以、編碼所有傳感器數(shù)據(jù)（攝像頭、雷達(dá)、激光雷達(dá)）并內(nèi)置世界知識(shí)，解碼所有駕駛相關(guān)任務(wù)（蒸餾縮小放在車端做感知、控制，可以在云端做虛擬仿真），這樣可以實(shí)現(xiàn)強(qiáng)大的泛化能力和快速適應(yīng)不同平臺(tái)。

有了這個(gè)世界模型的算法，基本上解決了自動(dòng)駕駛?cè)粘?wèn)題

接下來(lái)的任務(wù)-解決長(zhǎng)尾問(wèn)題

自動(dòng)駕駛的長(zhǎng)尾問(wèn)題，無(wú)非就是天氣、能見(jiàn)度低、遮擋、施工等復(fù)雜場(chǎng)景。雖然字面上很容易，但對(duì)于自動(dòng)駕駛就是難解之題。

天氣：

例如：雨后的路況的水坑，以及不常發(fā)生的洪水，自動(dòng)駕駛算法需要判斷水深和大量上下文信息，精確度和召回率要求極高，大量的空間信息。

Waymo的解法是采用VLM，但是前提條件是大量此類語(yǔ)料庫(kù)。

雪地駕駛，這對(duì)車輛硬件要求高，傳感器需要加熱和清潔功能以應(yīng)對(duì)堵塞。雪地駕駛的挑戰(zhàn)還包括：如何決定行駛路線（地圖是否仍然重要）、識(shí)別車轍，以及估計(jì)摩擦力。

低能見(jiàn)度與遮擋：

在極端低能見(jiàn)度下，如夜間高速公路上的行人或車輛，單個(gè)傳感器可能無(wú)法檢測(cè)，需要多模態(tài)傳感器的協(xié)同。

鳳凰城特有的沙塵暴（哈布）也對(duì)傳感器識(shí)別構(gòu)成挑戰(zhàn)，激光雷達(dá)可以在塵暴中清晰看到行人

遮擋推理（Occlusion Reasoning）：

最常見(jiàn)的就是視線不好的地方，到底有沒(méi)有鬼探頭，有沒(méi)有加塞等。這類看不見(jiàn)區(qū)域中物體的存在和狀態(tài)，對(duì)駕駛安全至關(guān)重要。

挑戰(zhàn)包括：定義不明確、非確定性、缺乏真值（ground truth）以建立基準(zhǔn)、主觀性、交通參與者多樣性以及高度依賴上下文。

人類常常對(duì)這種場(chǎng)景采取的方式是防御性駕駛

Waymo的解決方案包括：估計(jì)不確定的物體的先驗(yàn)信息（通過(guò)學(xué)習(xí)駕駛數(shù)據(jù)統(tǒng)計(jì)信息和利用微弱的傳感器線索，其實(shí)也就是原有數(shù)據(jù)）以及準(zhǔn)確估計(jì)自車速度先驗(yàn)（在不確定性高的路口，速度估計(jì)過(guò)低或過(guò)高都會(huì)導(dǎo)致問(wèn)題）。

復(fù)雜場(chǎng)景理解：

施工場(chǎng)景：需要識(shí)別標(biāo)志、推理駕駛幾何形狀，并根據(jù)錐筒等物體調(diào)整路線。

動(dòng)態(tài)場(chǎng)景：如交通警官的手勢(shì)，需要實(shí)時(shí)響應(yīng)動(dòng)態(tài)信號(hào)。

活躍事故現(xiàn)場(chǎng)：涉及大量應(yīng)急車輛和路況堵塞，需要整體場(chǎng)景理解來(lái)推理，并決定最佳行動(dòng)路線，而不僅僅是識(shí)別單個(gè)物體（如警戒線）。

總的來(lái)講，對(duì)于復(fù)雜場(chǎng)景，不僅僅是識(shí)別特征元素那么簡(jiǎn)單，需要使用LLM大語(yǔ)言模型理解場(chǎng)景，然后根據(jù)場(chǎng)景內(nèi)容做出決策。對(duì)于復(fù)雜場(chǎng)景Waymo表示他們也在探索。

自動(dòng)駕駛開(kāi)發(fā)到底什么最重要？

自動(dòng)駕駛時(shí)人工智能落地的場(chǎng)景，所以自動(dòng)駕駛最重要的東西也就是人工智能的三大件：數(shù)據(jù)、算法、算力。

但Waymo自動(dòng)駕駛對(duì)這三大件卻只提了數(shù)據(jù)，Waymo表示基礎(chǔ)是擁有大量數(shù)據(jù)很重要，但數(shù)據(jù)篩選和整理更為關(guān)鍵，高效高質(zhì)的數(shù)據(jù)才能確保模型專注于解決正確的問(wèn)題。

Waymo使用語(yǔ)言搜索、基于嵌入的搜索（適用于外觀和行為）、少樣本學(xué)習(xí)和主動(dòng)學(xué)習(xí)等技術(shù)

對(duì)于自動(dòng)駕駛，數(shù)據(jù)里面肯定海量視頻，如何數(shù)據(jù)挖礦出高質(zhì)的視頻，那么視頻搜索能力中對(duì)于理解事件（如汽車碰撞、漂移、翹頭）的含義至關(guān)重要。

快速的實(shí)時(shí)決策，天下武功唯快不破，自動(dòng)駕駛也一樣,Waymo表示誰(shuí)能讓算法到執(zhí)行的鏈路用時(shí)越短，那么誰(shuí)的自動(dòng)駕駛就能做的更安全，更絲滑。

怎么理解這個(gè)自動(dòng)駕駛的響應(yīng)快，這個(gè)得拆解自動(dòng)駕駛從攝像頭等傳感器的輸入響應(yīng)，然后就是算法的運(yùn)算結(jié)論交給底盤等執(zhí)行機(jī)構(gòu)。

傳感器的輸入響應(yīng)，基本上就是看攝像頭的fps和激光雷達(dá)等幀率，目前攝像頭幀率都大于24Hz。

算法的響應(yīng)，基本上就是算法能夠處理多塊的幀率，然后按照多快的幀率比如10Hz和20Hz輸送給底盤執(zhí)行機(jī)構(gòu)。

底盤機(jī)構(gòu)響應(yīng)，這就是為什么這個(gè)時(shí)代油液的發(fā)動(dòng)機(jī)和底盤已經(jīng)不適應(yīng)了，電機(jī)電控的控制頻率已經(jīng)非常高了，例如底盤剎車ESP的響應(yīng)都是上百Hz。

所以，當(dāng)前快速響應(yīng)決策基本上都是卡在各家算法的處理輸出響應(yīng)頻率。

最后，Waymo認(rèn)為他的Depots運(yùn)營(yíng)停車場(chǎng)，改裝工廠是最重要的，因?yàn)閃aymo是做L4的，這些設(shè)備能夠幫助L4順利快速的運(yùn)營(yíng)。

Waymo的Depots運(yùn)營(yíng)停車場(chǎng)，目前車輛能夠自己進(jìn)入停車場(chǎng)，找充電的空位，充完電只要拔完槍，車子就自動(dòng)開(kāi)出去運(yùn)營(yíng)。

Waymo的改裝車間，自動(dòng)駕駛車輛，只要裝完了傳感器，車輛就能夠自動(dòng)駛出生產(chǎn)線，自己駛?cè)脒\(yùn)輸卡車或者就直接開(kāi)始運(yùn)營(yíng)。

寫在最后

當(dāng)然，Waymo這個(gè)在CVPR上的討論，更多的是算法和開(kāi)發(fā)以及少量運(yùn)營(yíng)。但對(duì)于輔助駕駛/自動(dòng)駕駛批量生產(chǎn)和運(yùn)營(yíng)猶如汽車制造一樣，還有更大的是工程落地的很多dirty work，可能Waymo還沒(méi)有走到那一步。

工程落地是自動(dòng)駕駛行業(yè)一個(gè)較大的壁壘，需要協(xié)同汽車開(kāi)發(fā)，協(xié)同測(cè)試運(yùn)營(yíng)，聽(tīng)說(shuō)行業(yè)內(nèi)做的好的自動(dòng)駕駛公司基本上都是挖角當(dāng)年傳統(tǒng)汽車工程師來(lái)做，例如博世等的工程師。

輔助駕駛/自動(dòng)駕駛產(chǎn)業(yè)應(yīng)該最終都會(huì)交叉，因?yàn)樗麄兯惴ㄜ浖牡讓舆壿嬍且粯拥摹?/p>

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : Waymo自動(dòng)駕駛最新探索實(shí)踐：世界模型、長(zhǎng)尾問(wèn)題、最重要的東西