在人工智慧電腦視覺領域中,最常見的應用包括影像分類、物件偵測、像素級物件影像分割(語義分割及實例分割),其中又以物件偵測應用範圍最廣。近年來物件偵測的算法(模型)不斷推陳出新,從最早的二階式(R-CNN, Fast R-CNN, Faster R-CNN)高精度算法演變到現在一階式(YOLO, SSD, R-FCN)高效算法。其中又以YOLO(You Only Look Once) [1]系列最受大家喜愛,目前已演進至第三代(以下簡稱YOLOv3),其主要搭配Microsoft COCO 物件偵測80分類[2]做為預設訓練資料集,如果只需偵測常見物件偵測(如人、動物、車輛等)那麼直接利用YOLO預訓練好的模型及權重值就可應用到實際場域了。不過這80類物件通常很難滿足我們的需求,因此如果我們想應用自己準備的資料集時,那如何收集(取像)、標註、訓練資料集及進行最後的推論就變得非常重要。接下來就以辨識(偵測)小蕃茄為例為大家介紹完整工作流程(如Fig.1所示)。
Fig. 1 建構、標註、訓練及推論自己的資料集工作流程。 (OmniXRI整理製作) (點擊圖片放大) |