2018年12月16日 星期日

機器手臂也能像小嬰兒一樣抓自己想要的玩具了

小朋友滿周歲時大人們會準備各種物品讓小朋友「抓周」,再依小朋友抓到喜歡的物件來預測小朋友未來的職業,不知大家小時候都抓到些什麼東西呢?一歲小朋友的視力及手的運用能力大概已經可以簡單抓取想到的東西,尤其是食物,但小朋友的這項能力可不是大人教出來的,而是自己學習出來的。因此就有科學家想模仿小嬰兒的學習模式來讓機器人在沒人教(非監督學習)的情況下,學會如何抓到指定的物件,所以有了「Grasp2Vec」這項研究成果。


圖一 Grasp2Vec 系統圖 (點擊圖片放大)



「Grasp2Vec」這項技術主要利用一組機器手臂和一隻普通的攝影機構成(如圖一所示),並未使用先進的深度感測攝影機或立體視覺(二組以上攝影機)。其系統概念很簡單,就是先拍攝夾取物件前場景(盆子)影像,再減去夾取物件後影像,即可得知被抓取物件為何(如圖二所示)。訓練時主要利用增強學習(Reinforcement Learning, RL)的方式完成學習及訓練工作,讓機器手臂不斷的在一個盆子中撿取物件再丟回來訓練如何抓取正確的物件。一般來來說增強學習必須有一個獎勵機制,最簡單的做法就是做對了按個按鈕給個讚,但這裡為了不要人員介入所以改成比對希望抓取物件影像和抓取到的物件影像的相似度來做為獎勵機制,相似高就表加分。

圖二 Grasp2Vec原理圖 (點擊圖片放大)

圖三 卷積神經網路訓練架構圖 (點擊圖片放大)

接著就可利用就可利用卷積神經網路(CNN)分別提取取物前場景、取物後場景及取到物件影像的空間特徵圖(Spatial Feature Map),再將特徵轉為一維向量,對前兩項進行相減動作並調整最後一項結果對應關係,如此即可得到完整的訓練結果(如圖三所示)。更完整的相似度計算是採取向量餘弦距離(cosine distance)而得(如圖四所示),如此即不需人力介入(標註)就可得到相似度結果。當然這裡可能還是會有因背景混亂而產生的相似度誤判,但經大量反覆工作後多數正確的結果可淡化其影響。另外在訓練過程中亦可得出被抓取物件和空間位置的關連(如圖五所示),使得間接可以得到熱力圖(Heatmap),更容易抓取到正確物件,尤其當同一場景出現多個相同物件時更為有用(如圖六所示)。

圖四 相似度計算方式 (點擊圖片放大)

圖五 物件熱力圖產生方式 (點擊圖片放大)

圖六 多相同物件熱力圖結果 (點擊圖片放大)

雖然這項技術離真的小朋友抓東西的能力還有一段距離,且尚無法判定抓取物件最佳的角度及深度,但相信未來隨著算法及算力的提升應該會越來越進步,就讓我們耐心期待吧!

參考資料及圖片來源:
https://ai.googleblog.com/2018/12/grasp2vec-learning-object.html

相關影片:
影片來源:Youtube

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! Edge AI Taiwan 邊緣智能交流區 全像顯示與互動交流區 台科大(NTUST) 人工智慧與邊緣運算實務 開南大學...