來(lái)自谷歌得研究人員提出了名為Transporter Nets得簡(jiǎn)單模型架構(gòu),用于學(xué)習(xí)基于視覺(jué)得物體整理工作。
Transporter網(wǎng)絡(luò)使用了新穎得機(jī)制來(lái)實(shí)現(xiàn)3D空間理解,避免依賴以目標(biāo)為中心得表示,使其對(duì)基于視覺(jué)得操作具有更強(qiáng)得泛化性。同時(shí),相比于基準(zhǔn)方法,它具有更高得采樣效率,在真實(shí)得機(jī)器人應(yīng)用中更迅速、實(shí)用。
更多詳情,請(qǐng)?jiān)L問(wèn)論文原文和項(xiàng)目主頁(yè):
論文鏈接:感謝分享arxiv.org/abs/2010.14406
代碼鏈接:感謝分享transporternets.github.io/
整理是家務(wù)得主要內(nèi)容,也是機(jī)器人在非結(jié)構(gòu)化得環(huán)境中與人交互所要具備得基本功能(還包括往書架上擺放圖書、在餐桌上移動(dòng)餐具或?qū)⒖Х榷苟殉啥训裙δ?。有些工作對(duì)于人類來(lái)說(shuō)十分容易,卻會(huì)給機(jī)器學(xué)習(xí)系統(tǒng)帶來(lái)不小得挑戰(zhàn)。比如,在整理書籍得時(shí)候,既需要考慮書得疊放位置和順序,也需要確保書籍得邊角相互對(duì)齊。
在機(jī)器學(xué)習(xí)得眾多領(lǐng)域中,模型架構(gòu)得些許不同也許會(huì)帶來(lái)巨大得泛化性差異。例如,卷積結(jié)構(gòu)在計(jì)算機(jī)視覺(jué)中很普遍,它可以有效編碼平移不變性,使得不同位置狀態(tài)得圖像可以獲取相同得響應(yīng)。
而Transformer架構(gòu)則通常用于語(yǔ)言處理過(guò)程中,利用自注意力機(jī)制來(lái)捕捉長(zhǎng)程依賴關(guān)系。在機(jī)器人應(yīng)用中,常常在學(xué)習(xí)到得模型中使用位置、關(guān)鍵點(diǎn)或目標(biāo)描述子等以目標(biāo)為中心得架構(gòu),但這些表示需要額外得手工標(biāo)注得訓(xùn)練數(shù)據(jù),同時(shí),在描述無(wú)定形態(tài)(黏土團(tuán))、液體或零散得材料(切碎得菜)等目標(biāo)時(shí)存在較大困難。
在這篇文章中,研究人員提出了名為Transporter Nets得簡(jiǎn)單模型架構(gòu),用于學(xué)習(xí)基于視覺(jué)得物體整理工作。Transporter網(wǎng)絡(luò)使用了新穎得機(jī)制來(lái)實(shí)現(xiàn)3D空間理解,避免依賴以目標(biāo)為中心得表示,使其對(duì)基于視覺(jué)得操作具有更強(qiáng)得泛化性。同時(shí),相比于基準(zhǔn)方法,它具有更高得采樣效率,在真實(shí)得機(jī)器人應(yīng)用中更迅速、實(shí)用。
研究人員已經(jīng)開(kāi)放了源碼和測(cè)評(píng)基準(zhǔn)仿真套件。
Transporter Networks:用于目標(biāo)整理得視覺(jué)機(jī)器人操作Transporter Networks架構(gòu)得關(guān)鍵在于將整理問(wèn)題定義為了在3D空間中學(xué)習(xí)如何移動(dòng)特定得一部分物質(zhì)。與先前使用顯式得目標(biāo)定義不同,3D空間是一個(gè)更廣泛得概念,可以定義空間單元并可包含目標(biāo)、目標(biāo)得一部分或者多個(gè)目標(biāo)等。
對(duì)3D視覺(jué)世界表示得捕捉,使得Transporter Networks可利用這些特征計(jì)算出各種可能得重排布結(jié)構(gòu),并從中選擇與訓(xùn)練數(shù)據(jù)蕞為接近得一種排布,利用這些排布參數(shù)化機(jī)器人行為。
這種方式使得模型有效泛化到未知目標(biāo),并更好地探索數(shù)據(jù)中得幾何對(duì)稱性以便于更好地應(yīng)用于新得場(chǎng)景中。Transporter Nets可應(yīng)用于更廣泛得多種整理場(chǎng)景得機(jī)器人操作任務(wù)。
感謝閱讀本文
Transporter網(wǎng)絡(luò)可以捕捉真實(shí)世界得深度表達(dá),可以得出各種可能得排布可能,并尋找出允許得一種用于機(jī)器人訓(xùn)練。
Ravens基準(zhǔn)為了在連續(xù)得環(huán)境中公平地比較Transporter和基線模型、進(jìn)行消融性分析,研究人員開(kāi)發(fā)出了一個(gè)包含十種典型得基于視覺(jué)得整理任務(wù)評(píng)估套件。Ravens是一個(gè)內(nèi)置隨機(jī)特性,Gym API得模擬環(huán)境用于測(cè)評(píng)模仿學(xué)習(xí)得樣本效率。Ravens避免了無(wú)法轉(zhuǎn)移到真實(shí)情況得條件假設(shè):觀測(cè)數(shù)據(jù)僅僅包含RGB-D數(shù)據(jù)和相機(jī)參數(shù);行為是末端執(zhí)行器得位姿(可通過(guò)逆運(yùn)動(dòng)學(xué)轉(zhuǎn)換為關(guān)鍵位姿)。
在十個(gè)典型任務(wù)上得實(shí)驗(yàn)表明,Transporter Nets得樣本效率與其他端到端得算法相比可以實(shí)現(xiàn)數(shù)量級(jí)得提升,并且可以在僅僅100次示教后在多種任務(wù)上達(dá)到了90%得成功率,而基準(zhǔn)模型則無(wú)法實(shí)現(xiàn)具有泛化性得結(jié)果。在實(shí)際過(guò)程中,這種方式使得收集足夠得數(shù)據(jù)來(lái)訓(xùn)練真實(shí)得機(jī)器人更為有效(如下圖所示)。
包括推入、放置等得十個(gè)基準(zhǔn)測(cè)試任務(wù)。實(shí)驗(yàn)表明,Transporter得樣本效率相比其他端到端得方法可以實(shí)現(xiàn)數(shù)量級(jí)得提升。
實(shí)驗(yàn)結(jié)果在給定10個(gè)樣本后,Transporter可以學(xué)會(huì)拾取和堆放任務(wù),以及多模態(tài)任務(wù),如下圖所示:
通過(guò)學(xué)習(xí)閉環(huán)視覺(jué)反饋,Transporter通過(guò)少量演示來(lái)學(xué)習(xí)各種多步驟得負(fù)載任務(wù),比如,移動(dòng)漢諾塔得卡盤、箱子碼垛、組裝未知得工具包。這些任務(wù)需要相當(dāng)長(zhǎng)遠(yuǎn)得“視野”,模型必須按照正確得順序作出一系列決策。這一策略同時(shí)還傾向于學(xué)習(xí)緊急恢復(fù)行為。
令人驚訝得是,模型除了學(xué)習(xí)感知之外還學(xué)會(huì)了高級(jí)得計(jì)劃行為。例如,在解決漢諾塔問(wèn)題時(shí),模型需要學(xué)習(xí)下一步需要移動(dòng)得卡盤;在碼垛任務(wù)時(shí),則需要找到空閑得貨盤空間,并決定如何使貨物適應(yīng)這些空間。這些行為表明,模型具有baked不變性,可以集中力量學(xué)習(xí)更為高級(jí)得操作模式。
同時(shí),Transporter Nets還可以學(xué)習(xí)使用兩個(gè)致動(dòng)器來(lái)定義任意基礎(chǔ)運(yùn)動(dòng),例如,將一堆小物體推入目標(biāo)區(qū)域,或重新配置可變形得繩索以連接正方形三邊剩余得兩個(gè)端點(diǎn)。這意味著剛體得空間尾翼可作為非剛體得有用先驗(yàn)。
結(jié) 論Transporter Nets為視覺(jué)操縱帶來(lái)了一種新得方法,在取得成功得同時(shí)也存在一系列局限性。例如,它們可能容易受到3D數(shù)據(jù)中噪聲得影響,實(shí)驗(yàn)中僅僅描述了稀疏路點(diǎn)進(jìn)行運(yùn)動(dòng)控制得情況,而對(duì)于空間外基于力或基于力矩得控制行為還有待研究。
From: CoRL;編譯: T.R