想象一下,想要將手中的小方塊優(yōu)雅地遞給別人,是用手卡住方塊的側(cè)面送出?
還是伸出托著方塊底部的手?
那么如果對(duì)方是機(jī)器人,持握小方塊的方式是否會(huì)影響機(jī)器人快速、精確的識(shí)別呢?
答案是“會(huì)”!
因此,英偉達(dá)(Nvidia)研究人員設(shè)計(jì)了一種人類-機(jī)器人遞接物品的新方式,當(dāng)機(jī)器人面對(duì)人類時(shí),對(duì)其持握動(dòng)作進(jìn)行判斷、分類,進(jìn)而設(shè)計(jì)出遞接物品的方式。這一方式比基線更流暢,可為協(xié)作機(jī)器人的設(shè)計(jì)提供新思路,從而提高倉(cāng)庫(kù)工人的生產(chǎn)力。
當(dāng)?shù)貢r(shí)間 2020 年 3 月 12 日,相關(guān)論文 Human Grasp Classification for Reactive Human-to-Robot Handovers(基于人手持握動(dòng)作分類的人類-機(jī)器人遞接物品反應(yīng))發(fā)表于預(yù)印本網(wǎng)站 arXiv。
解決物品和人手相互遮擋的問(wèn)題
雷鋒網(wǎng)了解到,如今關(guān)注人類-機(jī)器人無(wú)縫遞接物品領(lǐng)域的研究越來(lái)越多。就目前而言,絕大多數(shù)研究著眼于將物品從機(jī)器人轉(zhuǎn)移到人類手中的挑戰(zhàn),假設(shè)人類可將物品放置在機(jī)器人的抓取器中進(jìn)行反向操作。
不過(guò),人類-機(jī)器人無(wú)縫遞接物品的一個(gè)挑戰(zhàn)便是機(jī)器人缺少可靠、連續(xù)的感知。在遞接物品過(guò)程中,物品和人手難免會(huì)相互遮擋,而且人在遞接物品時(shí)還經(jīng)常同時(shí)在做其他事情,因此機(jī)器人對(duì)人手和物品狀態(tài)、位置的估計(jì)并不是很精準(zhǔn)。
對(duì)此,研究人員提出的一種策略是,通過(guò)從計(jì)算機(jī)視覺(jué)社區(qū)借用現(xiàn)成的方法估計(jì)人手的動(dòng)作及物品的 6D 狀態(tài)。然而,這一方法僅僅關(guān)注于人手或物品。
基于此,英偉達(dá)研究人員做了一系列改進(jìn)。
將人手持握物品的動(dòng)作劃分類別
首先,研究人員利用微軟 Azure Kinect 深度傳感器的身體跟蹤 SDK(軟件開(kāi)發(fā)工具包)獲取檢測(cè)到的以人手為中心的點(diǎn)云,編輯一個(gè)數(shù)據(jù)集,訓(xùn)練 AI 模型。
此外,研究人員展示持握物品的示例圖像,并記錄 20-60 秒內(nèi)人手做出的類似動(dòng)作。在此期間,人可以不斷移動(dòng)身體或手,保證視角多樣化。據(jù)了解,該研究團(tuán)隊(duì)數(shù)據(jù)集的圖像已超過(guò) 15 萬(wàn)張。
在此基礎(chǔ)上,研究人員將持握動(dòng)作劃分類別,比如手中拿著一個(gè)小方塊時(shí),動(dòng)作可以被描述為“手掌張開(kāi)”、“卡住底部”、“卡住頂部”、“卡住側(cè)面”或“抬起”。
研究人員表示:
目前我們的系統(tǒng)覆蓋了 77% 的人手持握物品方式,未來(lái)我們還要將其擴(kuò)展到更大的范圍。
隨后,研究人員將遞接物品任務(wù)建模,基于一個(gè)「魯棒動(dòng)態(tài)邏輯系統(tǒng)」(Robust Logical-Dynamical System),設(shè)計(jì)出遞接物品的軌跡,免去了特定種類的抓取器和人手接觸的麻煩。
雷鋒網(wǎng)了解到,這一系統(tǒng)必須適應(yīng)人類各種可能的持握動(dòng)作,才能做出反應(yīng),判斷接近人類并遞接物品的方式。在系統(tǒng)確切地估計(jì)出人類將以何種方式持握物品之前,它將始終在原位(“home” position)保持等待狀態(tài)。
實(shí)際上,研究人員在一系列實(shí)驗(yàn)中對(duì)人手所有可能的位置、動(dòng)作進(jìn)行了系統(tǒng)性的回顧,確定了分類模型和任務(wù)模型。同時(shí),研究人員也考慮了這一過(guò)程中可能涉及的額外操作(下圖為按優(yōu)先級(jí)降序排列的可能出現(xiàn)的額外操作)。
遞接成功率為 100%
雷鋒網(wǎng)注意到,實(shí)驗(yàn)中,研究人員用到的是來(lái)自德國(guó)慕尼黑機(jī)器人公司 Franka Amika 的兩個(gè)不同的「熊貓機(jī)器人」(Panda robots),研究人員將其安裝在同一張桌子上的不同位置,分別從人類手中接過(guò) 4 種不同顏色的物品。
該論文的兩位作者表示,與 2 個(gè)基線方法(一個(gè)不判斷人手狀態(tài),另一個(gè)僅依賴于手和物體的狀態(tài))相比,他們的方法提升了人類-機(jī)器人無(wú)縫遞接物品的成功率,并縮短了計(jì)劃、執(zhí)行時(shí)間——遞接成功率為 100%(第二高為 80%),判斷成功率為 64.3%(第二高為 29.6%),計(jì)劃、執(zhí)行總動(dòng)作為 17.34 秒(第二短為 36.34 秒)。
不過(guò),研究人員也明確提到了這一系統(tǒng)存在的不足與未來(lái)的研究方向:
提升判斷成功率將會(huì)是未來(lái)我們的一個(gè)努力方向,這是因?yàn)榧词瓜到y(tǒng)已經(jīng)可以處理大部分物品和人手彼此遮擋的場(chǎng)景,但不確定性也更高了,有時(shí)機(jī)器人不得不重新進(jìn)行判斷。
此外,他們計(jì)劃讓系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)不同的持握類型,而不是依賴于人工制定的規(guī)則。
參考資料:
https://arxiv.org/pdf/2003.06000.pdf
https://venturebeat.com/2020/03/16/nvidia-researchers-use-ai-to-teach-robots-how-to-hand-objects-to-humans/
https://venturebeat.com/2018/11/26/how-munichs-franka-emika-wants-to-reinvent-industrial-robotic-assistants/
http://wyang.me/handovers/