「物件偵測」一直是電腦視覺的重點項目,已發展了二十多年[1],早期利用各種特徵提取和比對來找出人們對影像中有興趣的像素集合(物件),如VJ, HOG等。近幾年來,大家則把重點放在了「深度學習」的模型上[2],從剛開始的二階段偵測器(Two-stage Detector),如RCNN, SPPNet, Fast RCNN, Faster RCNN等,到目前最流行的一階段偵測器(One-stage Detector),如SSD, RetinaNet, EfficientDet, YOLO等,其中又以YOLO(You Only Look Once)系列發展的最好,一路發展出YOLOv2, YOLOv3, YOLOv4, YOLOv5(非學術論文), 去年更有ScaledYOLOv4, YOLOX, YOLOR等技術推出,讓大家有更快推論速度、更高推論精度、更彈性模型架構,讓同一張影像中大小物件都能順利被檢出。