亚洲av成人无码网天堂,少妇白浆高潮无码免费区,小污女小欲女导航,色欲久久综合亚洲精品蜜桃,亚洲,欧美,日韩,综合

訂閱
糾錯
加入自媒體

谷歌具身智能VLA模型RT-H—— 基于語言的動作分層框架

2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一個帶動作分層結(jié)構(gòu)的機器人Transformer —— 將語言化動作作為高級任務(wù)描述與低級動作之間的中間預(yù)測層,從而通過語言化動作構(gòu)建動作分層結(jié)構(gòu)。

那么,什么是語言化動作(language Motion),構(gòu)建動作分層結(jié)構(gòu)又能帶來哪些好處呢?

語言化動作是以自然語言描述機器人行為的語義單元,它作為高層任務(wù)與底層機器人動作(Robotics Actions)之間的中間抽象層,通過分解任務(wù)意圖生成可解釋的動作序列,保留語言的可組合性與人類可干預(yù)性,但其本身不直接控制機器人的動作執(zhí)行。

例如,將“拿起可樂罐”這一任務(wù)可分解為一系列更細顆粒度的行為,比如“向前移動手臂”,然后 “抓住罐子”,接著 “向上移動手臂”,這些細顆粒度的行為均可稱之為語言化動作。

構(gòu)建動作分層架構(gòu)的優(yōu)勢:

(1) 在語言化動作層面實現(xiàn)跨任務(wù)高效數(shù)據(jù)共享

通過語言化動作的組合泛化能力,顯著提升多任務(wù)數(shù)據(jù)集利用率。例如,“傾倒杯中物體”與“拾取可樂罐”雖任務(wù)語義不同,但在物體被拾取前的語言化動作序列完全一致(如“接近物體→定位抓取→閉合夾爪”),實現(xiàn)動作層級的跨任務(wù)復(fù)用。

(2) 語言化動作是動態(tài)場景適配的智能基元

語言化動作非固定預(yù)設(shè),而是基于當(dāng)前任務(wù)語境與視覺觀察實時生成。例如,“前移機械臂”的語義不包含具體速度與方向向量——該參數(shù)需根據(jù)任務(wù)目標(biāo)(如“避開易碎物”)和環(huán)境狀態(tài)(障礙物位置)動態(tài)解析。

RT-H動作分層架構(gòu)

在上圖中,當(dāng)給定“蓋上開心果罐” 這類語言描述的任務(wù)以及場景圖像后,RT-H 會利用視覺語言模型(VLM)預(yù)測 “向前移動手臂”、“向右旋轉(zhuǎn)手臂” 等語言化動作;然后,再根據(jù)這些語言化動作,為機器人預(yù)測具體執(zhí)行動作(Robot Action)。

這種動作分層結(jié)構(gòu)能讓模型學(xué)習(xí)到那些語言描述差異顯著但存在共享結(jié)構(gòu)的任務(wù)。與RT-2哪些直接從任務(wù)映射到動作的方式相比,這些語言化動作有助于在多樣化的多任務(wù)數(shù)據(jù)集之間實現(xiàn)更好的數(shù)據(jù)共享。

此外,該分層結(jié)構(gòu)還允許人類選擇性地向機器人提供語言化動作修正,以避免任務(wù)失敗,隨后利用這些新的語言化動作預(yù)測更優(yōu)的動作。當(dāng)人類完成干預(yù)后,RT-H 會像之前一樣繼續(xù)預(yù)測語言化動作。

然而,當(dāng)任務(wù)在語義上變得更加多樣時(例如“拿起可樂罐” 和 “倒杯子里的東西”),任務(wù)間的數(shù)據(jù)共享就會變得更加困難,因此學(xué)習(xí)從高級任務(wù)到具體動作指令的映射需要大量的演示數(shù)據(jù)。

為了彌合任務(wù)與動作之間的這一鴻溝,DeepMind的解法是賦予機器人『動作語義化』能力——使用原子級動作短語(如“前移機械臂”或“閉合夾爪”)描述底層運動。將語言化動作預(yù)測作為高層任務(wù)與底層執(zhí)行間的中間步驟,倒逼策略模型學(xué)習(xí)表面異構(gòu)任務(wù)間共享的底層運動結(jié)構(gòu)。更重要的是,基于語言化動作條件生成的策略,可在執(zhí)行過程中通過人類指定的語義指令實時修正。

一、RT-H:利用語言構(gòu)建動作分層結(jié)構(gòu)

RT-H的推理流程包含兩個關(guān)鍵階段:

1)首先,RT-H 根據(jù)視覺觀察結(jié)果和高級任務(wù)描述,預(yù)測當(dāng)前的語言化動作(語言化動作指令請求),使模型能在細粒度層面推理任務(wù)執(zhí)行方式;

2)然后,RT-H聯(lián)合視覺觀察、任務(wù)描述及推斷出的語言化動作預(yù)測當(dāng)前的具體執(zhí)行動作(機器人動作指令請求),其中語言化動作為精確動作預(yù)測提供了關(guān)鍵上下文補充。

RT-H是以視覺語言模型(VLM)作為主干網(wǎng)絡(luò),并遵循 RT-2的訓(xùn)練流程來實現(xiàn)。與RT-2 類似,通過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練,模型可調(diào)用自然語言處理與圖像理解領(lǐng)域的海量先驗知識。

為了將這些先驗知識融入動作層級結(jié)構(gòu)的各個層級,RT-H 使用單一的視覺語言模型(VLM)同時學(xué)習(xí)語言動作指令請求(Language Motion Query)和機器人動作指令請求(Action Query)。

RT-H的推理流程

圖左側(cè):

RT-H利用語言構(gòu)建分層策略學(xué)習(xí)架構(gòu):將動作預(yù)測拆分為語言化動作指令請求(π)與機器人動作指令請求(π)。其中:

π:基于圖像令牌( Image Tokens)和任務(wù)描述令牌(Task Tokens)預(yù)測細粒度語言化動作(如“向前移動手臂”);

π:結(jié)合場景視覺上下文,將該語言化動作解碼為具體的機器人動作指令。

圖右側(cè):

用戶可直接對機器人動作指令請求進行干預(yù),為機器人行為提供語言化動作修正,例如此處將“向前移動手臂” 改為 “向左移動手臂”。為了從修正中學(xué)習(xí),只需用新標(biāo)注的語言化動作修正更新語言動作指令請求。隨后,將更新后的模型重新部署到動作層級結(jié)構(gòu)中。

RT-H通過端到端的方式學(xué)習(xí)預(yù)測語言化動作指令和機器人動作指令,不僅能夠在語言化動作空間中進行修正,還能從這些修正中高效學(xué)習(xí)。

當(dāng)所學(xué)策略難以順利執(zhí)行任務(wù)時,語言化動作能再次發(fā)揮作用:它們?yōu)樵诰人類修正提供了一個直觀的交互界面,且這種修正與特定場景相關(guān)聯(lián)。通過語言化動作訓(xùn)練的策略,能夠自然地遵循人類的低級修正指令,并借助修正數(shù)據(jù)成功完成任務(wù)。此外,該策略甚至可以在語言修正數(shù)據(jù)上進行訓(xùn)練,從而進一步提升自身性能。

1. RT-H模型訓(xùn)練

RT-H采用基于互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練的單一視覺語言模型VLM),學(xué)習(xí)高層任務(wù)策略π與底層機器人控制策略π。

RT-H采用與RT-2相同的PaLI-X 55B架構(gòu)實例化視覺語言模型(VLM)。該模型通過ViT編碼器將圖像處理為圖像令牌(Image Tokens),再由編碼器-解碼器Transformer聯(lián)合處理這些圖像令牌與自然語言指令令牌,輸出離散動作令牌(Action Tokens)。

這些動作令牌的生成方式沿襲RT-2的離散化機制:將每個動作維度離散化為256個區(qū)間(bins),并將區(qū)間編碼為整數(shù)值。每個動作包含末端執(zhí)行器的位置/軸角旋轉(zhuǎn)變化量、夾爪開合動作指令以及任務(wù)終止標(biāo)志。

隨后,RT-H 使用與 RT-2 相同的 PaLI-X 訓(xùn)練混合數(shù)據(jù)進行聯(lián)合訓(xùn)練,并從預(yù)訓(xùn)練檢查點開始。在該聯(lián)合訓(xùn)練過程中,視覺 Transformer(ViT)編碼器被凍結(jié)。RT-H 以相同的采樣率,用語言化動作指令請求和機器人動作指令請求替代了 RT-2 中的機器人動作指令請求。使用單一模型簡化了訓(xùn)練過程,并使語言化動作指令請求和機器人動作指令請求都能從 PaLI-X 訓(xùn)練混合數(shù)據(jù)中蘊含的廣泛先驗知識中獲益。

2. 語言化動作的提取

為了低成本地提取每個片段中的每個時間步的可靠語言化動作,DeepMind開發(fā)了一種依賴機器人本體感知信息的自動標(biāo)注方案。

首先,將機器人末端執(zhí)行器位姿變化的每個維度與空間維度相關(guān)聯(lián)(例如,位置變化的z軸對應(yīng)上下方向)。針對所有 9 個動作維度(3 個位置增量維度、3 個姿態(tài)增量維度、2 個基座移動維度、1 個夾爪維度)執(zhí)行此操作后,就能確定機器人當(dāng)前的主要空間運動列表,例如 “手臂向上并向右移動”“閉合夾爪”“手臂逆時針旋轉(zhuǎn)” 或 “基座向左轉(zhuǎn)動”。之后,可以過濾掉低于選定 “小動作” 閾值的維度,再按照動作幅度的順序組合得到的動作。

例如,如果機器人主要是向前移動手臂,同時開始閉合夾爪,研究人員會提取出“向前移動手臂并閉合夾爪” 這一語言化動作。通過這種方式,語言的組合性使得從一組簡單的已知動作中能夠提取出超過 2500 種語言化動作。

此外,由于這些語言化動作直接源于動作本身,因此在RT-H 中運行動作指令請求時,它們對動作本身具有很強的預(yù)測能力。

然而,語言化動作在抽象層級的選擇上存在基本權(quán)衡的問題:語言化動作的顆粒度越細,語言化動作指令請求的預(yù)測難度越高,但對機器人動作指令請求的指導(dǎo)性越強;反之亦然。

二、RT-H:推理與修正

在測試階段,RT-H首先運行語言化動作指令請求(π)以推導(dǎo)語言化動作序列,隨后將該序列輸入機器人動作指令請求(π)生成具體的執(zhí)行動作參數(shù)。

然而,由于兩個指令請求需在每一步時序中串行執(zhí)行,該過程使推理耗時翻倍。雖對小規(guī)模模型影響甚微,但對于RT-H中使用的55B參數(shù)的大型模型而言,必將引發(fā)不可避免的請求處理延遲問題。

為應(yīng)對這一挑戰(zhàn),谷歌DeepMind提出兩種語言化動作推理模式:

(1) 異步查詢:僅訓(xùn)練RT-H中的語言化動作指令請求(π)預(yù)測未來一步動作。測試時,利用上一時間步推導(dǎo)的語言化動作執(zhí)行當(dāng)前機器人動作指令請求,同時并行預(yù)測下一時間步的語言化動作。此方案通過批處理查詢實現(xiàn)與RT-2近乎同等的請求延遲。

(2) 固定頻率:每H步執(zhí)行一次語言化動作指令請求,分?jǐn)傃舆t壓力。

在實驗中,DeepMind選擇異步查詢方案,因語言化動作常需在精確時間步變更,無法適配固定頻率帶來的約束。

結(jié)語

RT-H 通過訓(xùn)練將語言描述的任務(wù)映射為語言化動作,然后利用推斷出的語言化動作來預(yù)測具體動作指令。它的優(yōu)勢在于:

(1) 學(xué)習(xí)不同任務(wù)間的共享結(jié)構(gòu),促進多任務(wù)數(shù)據(jù)集的高效整合。

通過捕捉表面異構(gòu)任務(wù)間的任務(wù)結(jié)構(gòu)共性(如"倒水"與"取罐"共享抓取動作),顯著提升跨任務(wù)數(shù)據(jù)復(fù)用能力,實現(xiàn)對大規(guī)模多任務(wù)數(shù)據(jù)集的高效吸收;

(2) 支持場景與任務(wù)上下文適配的語言化動作修正。

允許人類通過語義指令(如"向左移動5cm")在維持任務(wù)目標(biāo)的前提下,實時調(diào)整底層執(zhí)行策略,實現(xiàn)行為動態(tài)優(yōu)化。

實驗證明,RT-H模型通過利用這種語言-動作分層結(jié)構(gòu),能夠高效利用多任務(wù)數(shù)據(jù)集,從而學(xué)習(xí)到魯棒性和適應(yīng)性更強的策略。研究還發(fā)現(xiàn),該策略不僅能響應(yīng)語言指令干預(yù),更能從這類干預(yù)中持續(xù)學(xué)習(xí),其表現(xiàn)顯著優(yōu)于基于遙操作示教干預(yù)的學(xué)習(xí)方法。

參考資料:

論文題目  :RT-H: Action Hierarchies Using Language 

論文地址:https://arxiv.org/pdf/2403.01823

       原文標(biāo)題 : 谷歌具身智能VLA模型RT-H—— 基于語言的動作分層框架

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號