歐尼克斯實境互動工作室(OmniXRI): 機器手臂也能像小嬰兒一樣抓自己想要的玩具了

2018年12月16日星期日

機器手臂也能像小嬰兒一樣抓自己想要的玩具了

小朋友滿周歲時大人們會準備各種物品讓小朋友「抓周」，再依小朋友抓到喜歡的物件來預測小朋友未來的職業，不知大家小時候都抓到些什麼東西呢？一歲小朋友的視力及手的運用能力大概已經可以簡單抓取想到的東西，尤其是食物，但小朋友的這項能力可不是大人教出來的，而是自己學習出來的。因此就有科學家想模仿小嬰兒的學習模式來讓機器人在沒人教(非監督學習)的情況下，學會如何抓到指定的物件，所以有了「Grasp2Vec」這項研究成果。

圖一 Grasp2Vec 系統圖 (點擊圖片放大)

「Grasp2Vec」這項技術主要利用一組機器手臂和一隻普通的攝影機構成(如圖一所示)，並未使用先進的深度感測攝影機或立體視覺(二組以上攝影機)。其系統概念很簡單，就是先拍攝夾取物件前場景(盆子)影像，再減去夾取物件後影像，即可得知被抓取物件為何（如圖二所示)。訓練時主要利用增強學習(Reinforcement Learning, RL)的方式完成學習及訓練工作，讓機器手臂不斷的在一個盆子中撿取物件再丟回來訓練如何抓取正確的物件。一般來來說增強學習必須有一個獎勵機制，最簡單的做法就是做對了按個按鈕給個讚，但這裡為了不要人員介入所以改成比對希望抓取物件影像和抓取到的物件影像的相似度來做為獎勵機制，相似高就表加分。

圖二 Grasp2Vec原理圖 (點擊圖片放大)

圖三卷積神經網路訓練架構圖 (點擊圖片放大)

接著就可利用就可利用卷積神經網路(CNN)分別提取取物前場景、取物後場景及取到物件影像的空間特徵圖(Spatial Feature Map)，再將特徵轉為一維向量，對前兩項進行相減動作並調整最後一項結果對應關係，如此即可得到完整的訓練結果(如圖三所示)。更完整的相似度計算是採取向量餘弦距離(cosine distance)而得(如圖四所示)，如此即不需人力介入(標註)就可得到相似度結果。當然這裡可能還是會有因背景混亂而產生的相似度誤判，但經大量反覆工作後多數正確的結果可淡化其影響。另外在訓練過程中亦可得出被抓取物件和空間位置的關連(如圖五所示)，使得間接可以得到熱力圖(Heatmap)，更容易抓取到正確物件，尤其當同一場景出現多個相同物件時更為有用(如圖六所示)。