亚洲av成人无码网天堂,少妇白浆高潮无码免费区,小污女小欲女导航,色欲久久综合亚洲精品蜜桃,亚洲,欧美,日韩,综合

訂閱
糾錯
加入自媒體

自動駕駛中常提的“強化學(xué)習(xí)”是個啥?

在談及自動駕駛時,有些方案中會提到“強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強化學(xué)習(xí)是一類讓機器通過試錯來學(xué)會做決策的技術(shù)。簡單理解下,就是一個智能體在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)沒有一一對應(yīng)的“正確答案”給它看,而是靠與環(huán)境交互、自我探索來發(fā)現(xiàn)哪些行為好,哪些行為不好。在聊到強化學(xué)習(xí)時,常會出現(xiàn)“狀態(tài)”“動作”“獎勵”“策略”“價值”等詞,分別對應(yīng)著智能體感知的環(huán)境信息、它能采取的行為、環(huán)境給的好壞評價、依據(jù)怎樣選擇動作的規(guī)則,以及衡量從某個狀態(tài)出發(fā)未來能獲得多少回報的估值。

對于自動駕駛汽車來說,車輛本身就是一個智能體,道路和交通參與者構(gòu)成環(huán)境,傳感器的輸出是狀態(tài),車輛轉(zhuǎn)向、加速、制動是動作,是否安全、是否平順、是否準時等可以組合成獎勵。強化學(xué)習(xí)的核心優(yōu)勢在于能直接優(yōu)化長期目標,如在復(fù)雜路口做出既安全又高效的決策;但它的試錯特性在真實道路上顯然不安全,所以強化學(xué)習(xí)通常依賴高保真仿真、離線數(shù)據(jù)和混合方法來落地。

強化學(xué)習(xí)在自動駕駛中的應(yīng)用場景

強化學(xué)習(xí)在自動駕駛里比較典型的應(yīng)用有低層控制、行為決策、局部軌跡優(yōu)化與策略學(xué)習(xí)等。在低層控制中,強化學(xué)習(xí)可以學(xué)習(xí)在特定車輛動力學(xué)下做轉(zhuǎn)向/速度控制的策略,優(yōu)勢是能在非線性和復(fù)雜摩擦條件下表現(xiàn)得更魯棒。在行為決策上,像交叉路口的黃燈時機選擇、變道策略、跟車間距調(diào)整這樣的長期權(quán)衡問題,強化學(xué)習(xí)能自然把安全、舒適和效率放在同一個目標里去優(yōu)化。在局部軌跡優(yōu)化時,強化學(xué)習(xí)可以在動態(tài)障礙與復(fù)雜約束下生成短周期的軌跡調(diào)整,而不是單純靠基于模型的最優(yōu)控制求解每一步。

現(xiàn)階段端到端被眾多企業(yè)應(yīng)用到自動駕駛中,端到端,即從相機或傳感器輸入直接映射到控制命令。端到端強化學(xué)習(xí)在實驗室里能展示非常驚艷的效果,但在樣本效率、可解釋性和安全驗證方面有很大短板,所以會采用強化學(xué)習(xí)輔助或作為策略搜索工具,而不是直接替換整個堆棧。

強化學(xué)習(xí)的實現(xiàn)要點與關(guān)鍵技術(shù)

對于強化學(xué)習(xí)來說,首先要解決的是如何定義狀態(tài)與獎勵。狀態(tài)既要包含足夠的信息讓策略做出正確決策,又不能過于冗余導(dǎo)致學(xué)習(xí)困難。獎勵設(shè)計則非常敏感,獎勵信號如果不合理會導(dǎo)致“獎勵劫持”或“走捷徑”現(xiàn)象,模型學(xué)到的策略看似得分高但行為危險。因此在自動駕駛里,獎勵通常是多項組合,不僅要包括安全相關(guān)的大幅負分(如發(fā)生碰撞、侵占對向車道),也會按舒適度、軌跡偏差、到達時間等給予細致的正負反饋。同時會用約束或懲罰項來確保最低安全邊界,而不是單靠稀薄的到達獎勵。

樣本效率對于強化學(xué)習(xí)來說也是非常關(guān)鍵的一個技術(shù)因素,很多經(jīng)典強化學(xué)習(xí)算法需要海量交互數(shù)據(jù),而在自動駕駛中真實道路數(shù)據(jù)代價極高。為此普遍依賴高質(zhì)量仿真環(huán)境進行訓(xùn)練,并結(jié)合領(lǐng)域隨機化、域適應(yīng)、以及模型預(yù)訓(xùn)練等技術(shù)縮小仿真到現(xiàn)實的差距。還有一種做法是離線強化學(xué)習(xí),利用大量已記錄的駕駛軌跡進行策略學(xué)習(xí),避免實時探索風(fēng)險,但離線強化學(xué)習(xí)本身對分布偏差和保守性有特殊要求。

算法選擇與架構(gòu)對于強化學(xué)習(xí)來說依然重要,基于值的算法(比如Q-learning及其深度版本DQN)適合離散動作空間,但實際車輛控制通常是連續(xù)的,所以更多會采用策略梯度類方法(例如REINFORCE、PPO)或演員-評論家(Actor-Critic)架構(gòu)。演員-評論家結(jié)合了策略直接優(yōu)化和價值估計的優(yōu)勢,在樣本利用和穩(wěn)定性上表現(xiàn)較好。對于需要長期規(guī)劃與短期控制結(jié)合的場景,層次化強化學(xué)習(xí)能把高層決策(如選擇變道/保持車道)和低層控制(如具體轉(zhuǎn)向角)分開學(xué)習(xí),降低復(fù)雜度并提高可解釋性。

安全與穩(wěn)定性對于強化學(xué)習(xí)來說非常重要,因此在訓(xùn)練過程中需要引入安全過濾器、可驗證的約束層或備用控制策略。在部署時可采用“安全外殼”設(shè)計,強化學(xué)習(xí)策略輸出建議動作,但在動作被實際執(zhí)行前先通過基于模型的約束檢查或已驗證的追隨控制器。這樣即使強化學(xué)習(xí)策略出現(xiàn)異常,車輛也能回退到保守、安全的行為。

為了探索長尾場景,在技術(shù)設(shè)計時要采用聚類化采樣、風(fēng)險驅(qū)動的優(yōu)先經(jīng)驗回放、以及基于場景的Curriculum Learning(從簡單到復(fù)雜逐步訓(xùn)練)來引導(dǎo)學(xué)習(xí)。對抗性訓(xùn)練也常被用來生成更具挑戰(zhàn)性的場景,從而提高策略魯棒性。

限制、風(fēng)險與工程落地建議

強化學(xué)習(xí)面臨的一個核心限制是可驗證性與可靠性。自動駕駛是高安全要求的系統(tǒng),監(jiān)管和商業(yè)部署需要強有力的可解釋性與可復(fù)現(xiàn)的驗證流程。純粹依賴黑箱強化學(xué)習(xí)策略的系統(tǒng)很難通過法規(guī)和安全審查,因此很多企業(yè)把強化學(xué)習(xí)作為策略優(yōu)化和能力補強的工具,而不是替代現(xiàn)有基線控制和規(guī)則引擎。

獎勵設(shè)計不成熟導(dǎo)致表面上“完美”但實際有害的行為也是強化學(xué)習(xí)經(jīng)常會遇到的問題。舉個容易理解的例子,如果把“盡量快到達目的地”作為主要目標,而未對安全擾動給出足夠懲罰,模型可能在復(fù)雜交通中做出冒險超車等行為。因此要把硬性安全約束放在首位,把效率和舒適度作為可優(yōu)化的次級目標,并通過詳細的仿真場景和對抗測試來發(fā)現(xiàn)潛在的“獎勵黑箱”問題。

想讓自動駕駛技術(shù)落地,應(yīng)采取分層策略,在仿真里用強化學(xué)習(xí)做策略搜索和參數(shù)調(diào)優(yōu),生成候選策略后在離線回放數(shù)據(jù)上驗證,接著在受控封閉場地進行帶人或遙控測試,再逐步放寬場景。并且應(yīng)把強化學(xué)習(xí)模塊設(shè)計為可插拔、可回退的子系統(tǒng),有明確的監(jiān)控指標和安全撤退機制。對數(shù)據(jù)與模型應(yīng)保存完整實驗記錄,支持線下審計與回放復(fù)現(xiàn)。

混合方法通常比純強化學(xué)習(xí)更實用。把模仿學(xué)習(xí)用于初始化策略可以大幅降低訓(xùn)練難度;把基于模型的規(guī)劃與基于學(xué)習(xí)的策略結(jié)合能兼顧理論可解釋性與經(jīng)驗表現(xiàn)。離線強化學(xué)習(xí)、保守策略梯度、以及安全約束優(yōu)化等技術(shù)的應(yīng)用都是常見的折衷方案。

如何把強化學(xué)習(xí)安全地帶入自動駕駛

強化學(xué)習(xí)為自動駕駛帶來的并不是一套現(xiàn)成的解決方案,而是一種強有力的決策優(yōu)化工具。它擅長處理那些帶有長期依賴、稀疏反饋和復(fù)雜交互的任務(wù),但在樣本效率、安全驗證與可解釋性方面仍需工程化的補強。想把強化學(xué)習(xí)安全地帶入自動駕駛,更合理的路線是把強化學(xué)習(xí)作為補充和增強,在仿真環(huán)境中探索策略、在離線數(shù)據(jù)上穩(wěn)健化、用規(guī)則與約束保證安全、在真實道路上逐步驗證并留有回退。只有在設(shè)計時明確邊界、構(gòu)建嚴格的測試與回滾機制,強化學(xué)習(xí)才能把它的優(yōu)勢轉(zhuǎn)化為可部署、可審計的自動駕駛能力。

-- END --

       原文標題 : 自動駕駛中常提的“強化學(xué)習(xí)”是個啥?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號