英偉達(dá)專欄

英偉達(dá)開(kāi)發(fā) AI 模型：數(shù)據(jù)集圖像總量逾 15 萬(wàn)，成功率 100%

想象一下，想要將手中的小方塊優(yōu)雅地遞給別人，是用手卡住方塊的側(cè)面送出？

還是伸出托著方塊底部的手？

那么如果對(duì)方是機(jī)器人，持握小方塊的方式是否會(huì)影響機(jī)器人快速、精確的識(shí)別呢？

答案是“會(huì)”！

因此，英偉達(dá)（Nvidia）研究人員設(shè)計(jì)了一種人類-機(jī)器人遞接物品的新方式，當(dāng)機(jī)器人面對(duì)人類時(shí)，對(duì)其持握動(dòng)作進(jìn)行判斷、分類，進(jìn)而設(shè)計(jì)出遞接物品的方式。這一方式比基線更流暢，可為協(xié)作機(jī)器人的設(shè)計(jì)提供新思路，從而提高倉(cāng)庫(kù)工人的生產(chǎn)力。

當(dāng)?shù)貢r(shí)間 2020 年 3 月 12 日，相關(guān)論文 Human Grasp Classification for Reactive Human-to-Robot Handovers（基于人手持握動(dòng)作分類的人類-機(jī)器人遞接物品反應(yīng)）發(fā)表于預(yù)印本網(wǎng)站 arXiv。

解決物品和人手相互遮擋的問(wèn)題

雷鋒網(wǎng)了解到，如今關(guān)注人類-機(jī)器人無(wú)縫遞接物品領(lǐng)域的研究越來(lái)越多。就目前而言，絕大多數(shù)研究著眼于將物品從機(jī)器人轉(zhuǎn)移到人類手中的挑戰(zhàn)，假設(shè)人類可將物品放置在機(jī)器人的抓取器中進(jìn)行反向操作。

不過(guò)，人類-機(jī)器人無(wú)縫遞接物品的一個(gè)挑戰(zhàn)便是機(jī)器人缺少可靠、連續(xù)的感知。在遞接物品過(guò)程中，物品和人手難免會(huì)相互遮擋，而且人在遞接物品時(shí)還經(jīng)常同時(shí)在做其他事情，因此機(jī)器人對(duì)人手和物品狀態(tài)、位置的估計(jì)并不是很精準(zhǔn)。

對(duì)此，研究人員提出的一種策略是，通過(guò)從計(jì)算機(jī)視覺(jué)社區(qū)借用現(xiàn)成的方法估計(jì)人手的動(dòng)作及物品的 6D 狀態(tài)。然而，這一方法僅僅關(guān)注于人手或物品。

基于此，英偉達(dá)研究人員做了一系列改進(jìn)。

將人手持握物品的動(dòng)作劃分類別

首先，研究人員利用微軟 Azure Kinect 深度傳感器的身體跟蹤 SDK（軟件開(kāi)發(fā)工具包）獲取檢測(cè)到的以人手為中心的點(diǎn)云，編輯一個(gè)數(shù)據(jù)集，訓(xùn)練 AI 模型。

此外，研究人員展示持握物品的示例圖像，并記錄 20-60 秒內(nèi)人手做出的類似動(dòng)作。在此期間，人可以不斷移動(dòng)身體或手，保證視角多樣化。據(jù)了解，該研究團(tuán)隊(duì)數(shù)據(jù)集的圖像已超過(guò) 15 萬(wàn)張。

在此基礎(chǔ)上，研究人員將持握動(dòng)作劃分類別，比如手中拿著一個(gè)小方塊時(shí)，動(dòng)作可以被描述為“手掌張開(kāi)”、“卡住底部”、“卡住頂部”、“卡住側(cè)面”或“抬起”。

研究人員表示：

目前我們的系統(tǒng)覆蓋了 77% 的人手持握物品方式，未來(lái)我們還要將其擴(kuò)展到更大的范圍。

隨后，研究人員將遞接物品任務(wù)建模，基于一個(gè)「魯棒動(dòng)態(tài)邏輯系統(tǒng)」（Robust Logical-Dynamical System），設(shè)計(jì)出遞接物品的軌跡，免去了特定種類的抓取器和人手接觸的麻煩。

雷鋒網(wǎng)了解到，這一系統(tǒng)必須適應(yīng)人類各種可能的持握動(dòng)作，才能做出反應(yīng)，判斷接近人類并遞接物品的方式。在系統(tǒng)確切地估計(jì)出人類將以何種方式持握物品之前，它將始終在原位（“home” position）保持等待狀態(tài)。

實(shí)際上，研究人員在一系列實(shí)驗(yàn)中對(duì)人手所有可能的位置、動(dòng)作進(jìn)行了系統(tǒng)性的回顧，確定了分類模型和任務(wù)模型。同時(shí)，研究人員也考慮了這一過(guò)程中可能涉及的額外操作（下圖為按優(yōu)先級(jí)降序排列的可能出現(xiàn)的額外操作）。

遞接成功率為 100%

雷鋒網(wǎng)注意到，實(shí)驗(yàn)中，研究人員用到的是來(lái)自德國(guó)慕尼黑機(jī)器人公司 Franka Amika 的兩個(gè)不同的「熊貓機(jī)器人」（Panda robots），研究人員將其安裝在同一張桌子上的不同位置，分別從人類手中接過(guò) 4 種不同顏色的物品。

該論文的兩位作者表示，與 2 個(gè)基線方法（一個(gè)不判斷人手狀態(tài)，另一個(gè)僅依賴于手和物體的狀態(tài)）相比，他們的方法提升了人類-機(jī)器人無(wú)縫遞接物品的成功率，并縮短了計(jì)劃、執(zhí)行時(shí)間——遞接成功率為 100%（第二高為 80%），判斷成功率為 64.3%（第二高為 29.6%），計(jì)劃、執(zhí)行總動(dòng)作為 17.34 秒（第二短為 36.34 秒）。

不過(guò)，研究人員也明確提到了這一系統(tǒng)存在的不足與未來(lái)的研究方向：

提升判斷成功率將會(huì)是未來(lái)我們的一個(gè)努力方向，這是因?yàn)榧词瓜到y(tǒng)已經(jīng)可以處理大部分物品和人手彼此遮擋的場(chǎng)景，但不確定性也更高了，有時(shí)機(jī)器人不得不重新進(jìn)行判斷。

此外，他們計(jì)劃讓系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)不同的持握類型，而不是依賴于人工制定的規(guī)則。

參考資料：

https://arxiv.org/pdf/2003.06000.pdf

https://venturebeat.com/2020/03/16/nvidia-researchers-use-ai-to-teach-robots-how-to-hand-objects-to-humans/

https://venturebeat.com/2018/11/26/how-munichs-franka-emika-wants-to-reinvent-industrial-robotic-assistants/

http://wyang.me/handovers/

上一個(gè)：NVIDIA叫停GTC大會(huì)新聞發(fā)布：“安培”還得等下一個(gè)：新冠疫情沖擊全球科技市場(chǎng)，英偉達(dá)為何敢如此樂(lè)觀？

英偉達(dá)專欄

英偉達(dá)開(kāi)發(fā) AI 模型：數(shù)據(jù)集圖像總量逾 15 萬(wàn)，成功率 100%

相關(guān)新聞

欄目導(dǎo)航

新聞中心

英偉達(dá)專欄

英偉達(dá)開(kāi)發(fā) AI 模型：數(shù)據(jù)集圖像總量逾 15 萬(wàn)，成功率 100%

相關(guān)新聞

欄目導(dǎo)航

新聞中心

英偉達(dá)開(kāi)發(fā) AI 模型：數(shù)據(jù)集圖像總量逾 15 萬(wàn)，成功率 100%