2019年7月10日 星期三

從AIGO業界出題看如何成功導入AI

前不久因為有感台灣推動人工智慧(以下簡稱AI)落地方向不明,剛好看到工業局及資策會正在推動的AIGO活動「業界出題、人才解題」,於是隨手整理了廠商出的76個實際需求問題寫了一篇「從AIGO業界出題內容看台灣AI如何落地」(非業配文),收到不少迴響。最近AIGO又開始第二梯次出題,出了整整100題,於是激起我再寫第二篇的動力(依然不是業配文),想就個人觀點和大家談談一般人對AI的迷思、如何確認導入AI成效及未來該如何出題才能得到快速有效的解題方案。

Fig. 1 AIGO官網畫面(圖片來源:https://aigo.org.tw) (點擊圖片放大)


出題分析


目前AIGO官網上只將出題分為三大類問題「電腦視覺」、「自然語言」及「數據分析」。經個人逐一閱讀100題說明後,再依主觀看法重新摘要、細分技術子項及應用領域,「電腦視覺」部份佔46%(人臉辨識:9,影像分類:7,物件偵測:6,文字辨識:6,語義分割:6,光學檢測:3,行為分析:3,立體視覺:2,圖像標題:1,指紋辨識:1,影像合成:1,影像迴歸:1,共46題),「自然語言」部份佔19%(語音客服:11,語義理解:6,語音合成:1,語言分類:1,共19題),「數據分析」部份佔35%(時序預測:18,生產優化:6,推薦系統:4,資料探勘:3,資訊安全:2,迴歸分析:1,資料分類:1,共35題),最後統計結果得到如Fig. 2所示。

另外AIGO官網是以出題廠商領域來分類出題類型,但出題內容可能和本業不一定完全相關,因此個人重新自行以應用領域分類,包括智慧製造(22%)、智慧醫療(19%)、智慧政府(13%)、智慧生活(10%)、智慧教育(8%)、智慧零售(7%)、智慧商務(7%)、智慧城市(6%)、智慧農業(3%)、智慧交通(2%)、智慧家庭(2%)、智慧金融(1%),如Fig. 3所示。另外此次由於AIGO加入高雄地區及政府單位徵題,所以有41題(所有領域)是來自高雄地區,而公部門(全台)則出了23題。

這樣的分類或許不夠精準(部份有複合問題)或許還有些因個人本職學能不足在閱讀說明時產生誤解,分得不好或不對的地方再請大家見諒多多包涵。更完整的出題說明請詳見AIGO官網「解題競賽108年度第二梯次」。

Fig. 2 AIGO 2019第二梯出題技術領域(OmniXRI整理繪製) (點擊圖片放大)

Fig. 3 AIGO 2019第二梯出題應用領域(OmniXRI整理繪製) (點擊圖片放大)

大眾對AI的迷思


個人在閱讀大量學術論文、新聞報導並參加許多研討會及和許多業界人士閑聊後發現目前大多數人仍對人工智慧(AI)存有大量幻想及恐懼,在此提供一些個人觀點希望能破除一些迷思,或許能更有助未來廠商導入AI時不會有過高的期待及更容易找到更符合自身需求的解決團隊及方案。不過受限個人能力有限,如有說明不清楚或者有爭議內容,歡迎留言討論。以下個人就從AI定義、資料集、算法、算力及成效指標等範圍來分別說明AI常見的八項迷思。

*迷思一:AI無所不能,什麼工作都能交給AI


「人工智慧」一詞從1950年代就被提出,其間歷經幾次大起大落,從最早的「符號邏輯」、「專家系統」、「機器學習」、「資料採礦(大數據)」到近兩年興起的「深度學習」及「知識圖譜」。對於這些技術的差異和應用範圍大多數人可能都難以區分,甚至更誇張地認為只要有用到「電腦視覺」、「語音辨識」、「數據分析」代替人類工作的項目全部都可稱為「人工智慧」。從技術發展來看,早期多半是採條件方式來代替人類進行單純邏輯判別,進而發展出多條件線性組合的最佳化判斷協助人類決策,再來是可自我學習的非線性算法逐漸被採用,而這些方式可歸類到「規則驅動」型人工智慧。近十年主流技術主要著墨在以數據統計分析的「資料採礦」及利用深層或時序型神經網路來訓練及學習的「深度學習」,而這幾種方式則歸類到「資料驅動」型人工智慧。

不論是前者那一種和真正的人類利用特徵提取再以無監督方式舉一反三的分類都還有很大一段距離。所以目前所謂「資料驅動」型的「人工智慧」比較擅長的是很難定規則(模擬兩可)或規則多到難以人工制定的問題(如影像分類、自然語言分析、文本理解),或者如博奕(棋牌類、遊戲類)這類結果可能變化大到人類難以估算問題。而需要透過產生精準數值(如以影像量測距離、聲音頻率計算)之類的問題反而得依靠較傳統的「規則驅動」型技術來完成。更多人工智慧擅長及不擅長的項目,藉「人工智慧在台灣」一書中的圖表(Fig. 4)可更清楚了解,右上角是目前落地狀況較佳的領域(如下棋、人臉辨別)。

Fig. 4 機器學習擅長問題(圖片來源) (點擊圖片放大)

*迷思二:AI會自我學習只要一直提供資料就會變更厲害


目前常聽到的機器學習(深度學習)方式,不管是監督式(Supervised)或非監督(Unsuervised)式在學習完後,對新資料加入是不會自動改善學習結果的,除非將舊資料加上新資料再重新訓練後才會改善分類正確率或回歸預測能力。而當資料集越來越來大,訓練時間(成本)就會隨之提高,因此需要像遷移學習(Transfer Learning)這類技術來降低訓練時間。至於多久要重新訓練一次整合後的資料集,可能隨著不同產業需求各有不一。另外常見的增強式學習大致上可分為兩大類,有一類像是博奕、棋類、電玩等,此類不須加入新學習樣本(也無法加入),隨訓練次數及時間增加就可越來越強,因有其特定決策條件並透過分數高低(輸贏)決定學習方向(參數),如此才算是自我學習。不過當加入新限制條件或決策規則時還是得重新學習,顯然這類作法不太適合大多數的應用。另一類以反覆訓練生成器(Generator)和判別器(Discriminator)方式來學習的手法,像是對抗生成網路(Generative Adversarial Network, GAN),雖然會在訓練過程會自我學習,讓辨識率提高,但對於新(不同樣態)樣本加入時仍會有須要重新訓練的問題。

*迷思三:數據越多學習訓練效果越好


這句話只對了一半,對監督式學習來看應該說「高品質已標註資料越多越好」,所謂高品質還包含資料的多樣式及平均性。未經清洗的資料或未在特定(嚴謹)規範下標註出來的數據,只會造成垃圾進垃圾出(garbage in, garbage out, GIGO),訓練完的結果也不會有太好的結果。若是用於醫療影像應用上,標註者的專業知識及經驗更會影響判定標註品質及訓練結果,甚至影響到病患權利,因此更須謹慎處理。另外一般更常見的問題是資料集分佈極端不平均,正常的資料可能高達80~90%甚至更高,而想檢出的特定分類(如不同物種影像)或不正常(如瑕疵影像)資料不到10%甚至更低。假設訓練後正確率為80%,則表示有20%正確的資料會被當成不正常,那資料集過小的分類就很有可能永遠檢不出(或錯誤率極高),但不幸地是這些小分類通常就是我們最想檢出的內容。所以資料集的平均性及多樣性比起單純數量大會來得更為重要,其解決手段除傳統的資料擴增法(Data Augmentation)、對抗生成網路(GAN)生成外,透過公開資料集也是不錯的解決方式,但對業界非通用需求(如工業、醫療等)通常還是得乖乖回去實際應用場域收集特定資料集才能解決。

對於非監督式學習(聚類問題)來說,數據越多總該沒毛病了吧?同樣地,不在特定情況下,還是有很大問題。首先是資料集是否為格式化資料(如固定尺寸影像)每筆資料的每個欄位是否都填滿填好。再來是資料維度是否超出算法及記憶體能力能處理範圍。舉例來說,以一個28x28全彩(RGB888) 影像來說,輸入維度為28x28x3 = 2352。一段以1Khz取樣一秒的時序變化訊號(如聲音或感測器)則有1000筆連續資料,當然同樣一段時序信號在不同分析方式下輸入及輸出維度可能變成一維或任意維度(N <= 1000)。所以當資料維度變成數萬維甚至數千萬維時通常難以直接計算,須先特徵提取、資料壓縮、主成份分析或其它聚類(Cluster)等手段將資料降維才有辦法計算。對於非格式化資料(如文章、對話等)來說,資料長度過長、過大時也會遇到須先拆解或特徵提取甚至資料清洗並正規化後才能訓練問題。

*迷思四:只要大量良品資料就能自動學習特徵做為不良品檢測


一般工廠在訓練作業員時只需告知檢測基本規則或提供少數不合格問題樣本即可,當看到、聽到或量測到和正常樣本的不一樣的就要排除,不管問題出在那個位置(時間),出現的樣態只要符合規則(特徵)不管是否和原先提供的不合格樣本完全一樣,大多數作業員經過學習後都能在很快時間內上線且可有不錯的表現。但不幸地是,目前主流的人工智慧算法大部份都是「深度學習」的擴展,和人類學習(提取)特徵後再判斷的方式有極大不同,反而是要提供非常大量(數千到數百萬筆)已標註不良品資料集才有辦法運作。訓練模型時亦要用非常大量(數萬到數億)的參數,加上反複計算數千萬到數百億次矩陣乘加運算才能求出最佳參數值(學習成果),故這樣的算法只能算是在求最佳函數解,更誇張一點來說根本就是暴力法(窮舉各種可能性),強迫訓練出的模型硬用記憶方法(填鴨法)來學習,而不是真的像人一樣學到特徵可以觸類旁通,當遇到不曾出現過的問題(符合不良品規則,但樣態不在資料集中),常難以正確檢出。所以當訓練資料集多樣性不足或分類數量極不平均時,常會在訓練(學習)時有很好的成績,但遇到真實世界數據時正確率就瞬間掉個十幾二十個百分點,比人工作業還糟的問題產生。

近來有一部份研究從建立良品特徵來進行非正常偵測(Anomaly Detection),其主要原理是先以大量良品找出樣品相關參數的高斯分佈(參數集中度),之後再以此參數作為基準進行生產,並在檢測過程中把超出N個標準差的樣品當成不良品,這樣就不用關心是何種不良產生都可被偵測出。但其缺點是無法分辨是何種不良,因為不同的不良問題出現次數過少,難以提取出相關參數的差異(分界點)。另外對於高維度資料(如大尺寸影像)亦難以找出合理特徵分佈區間,所以通常需搭配一些降維處理才能有效檢出。

*迷思五:只要提供巨量未標註資料就能自動找出分類規則及關連


大部份的人會想說我有成千上萬的樣本是否可以直接用人工智慧找出特徵並自動分類(過分類)後,再由人工方式決定那幾類屬於同一類(分類合併)?遺憾地是目前超高維超稀疏資料集雖有一些自動聚類的方式,但當資料維度過高或者是資料集筆數過大時是極為困難進行運算的,至少不是目前常見深度學習算法可以處理的。但要人去標註成千上萬的樣本其成本又太高,所以目前有些資料樣態可以透過少量已標註的資料集來自動標註其它未標註資料集的半監督學習(Semi-Supervised Learning)方式。乍聽之下這不就解決了自動分類的問題了嗎?但嚴格來說這種手段只是大幅簡低標註時間,但最終還是要人來分辨到底標註出來的內容是否正確、品質是否良好及是否可以加入已標註的資料集中。

*迷思六:一定要花很多錢買專用深度學習專用伺服器


這個問題可能要從幾個方面來看,主要分為「資料集訓練(Training)」及「資料推論(Inference)」兩大部份。在說明前以交通運輸為例,常見的運輸工具有腳踏車、機車、轎車(計程車)、貨車、卡車、火車、高鐵、貨輪、飛機,而運送管道有柏油(水泥)道路、高速(高架)公路、鐵軌(高架)、航線,另外還需搭配建置交通號誌、高架橋、隧(地下)道、車站、港口、機場等硬體設施才能讓交通順暢運行,讓使用者可自由往返兩地。當然更重要的是要擁有操縱交通工具的人(不一定是自己)及持有對應的駕駛執照,必要時還要有專屬的車隊、客運、航運公司提供服務。當有交通需求時,使用者會依需求方便性、建置(使用)成本、交通時間、使用頻度、運輸內容(數量)而會選擇不同的交通工具及服務供應商,更進一步為了時效及運量達到最佳化,甚至採用混搭方式完成。

一般來說,深度學習的訓練時間會和模型複雜度(參數多寡)、資料集大小、正確率要求(迭代次數)有直接關連,這個部份明顯需要極大量的計算,因此選擇高速運算設備會省下許多時間。選擇計算工具依不同建置成本(包含人及設備)可從CPU(單核、多核)、GPU(數百到數萬核)到專屬設備(如TPU, FPGA, ASIC),可自己建置亦可透過雲端高效計算(HPC)服務,和買(用)車一樣,依不同需求買不同車種或者請交通運輸業者提供對應服務,就像台北到高雄是要自己騎機車、買車開車、搭火車(高鐵)還是飛機一樣。同樣地,高效計算建置整體考量的重點和交通是一樣的,硬體建置、消耗能源(網路、電力、空調)、人員(內部、外部)配置、使用頻度(訓練次數)及方便性等因素。當然一開始就要採購高價設備可能對很多小公司風險太高,此時可多利用知名雲端高效計算(Google GCP, Amazon AWS, Microsoft Azure)算力,採用部份(較少筆數)資料集、低一點的正確率(或少次數迭代)來進行不同模型的概念測試,如此即可在較短時間找出可行方案及後續需要投入資源(算力、時間)。

若使用情境為模型訓練完後幾乎不太需要重新訓練或很久才需重新訓練一次,那大部份的時間只有用到推論,那就很可能完全不用高價高性能的專用伺服器,只需不用連網的邊緣運算設備如低價的專用IC(NPU, ASIC)、樹莓派或手機上就能直接進行推論(運算)。當然若要提供大量的使用者同時使用推論服務時,則可考慮自建推論伺服器(單機或機房)或使用雲端高效計算及儲存空間,至於何者划算就得看使用計算效能、連線數量、推論頻(速)度、耗能及管理(運營、折舊)成本等各項因素了。

*迷思七:選對模型調好超參數就搞定AI應用


一個完整的AI落地應用就像煮一盤美味咖哩雞飯的流程(如Fig. 5所示)一樣,不是只有一個好的模型就能完成,它包括「資料收集」、「資料清洗」、「資料標註」、「資料倉儲」、「特徵分析(模型建立、超參數調整)」等步驟,最後才是完整的「智能應用」。通常建模及調參可能佔不到20%,許多AI新創公司及想導入AI的廠商常會忽略或輕視前面三大步驟,或者說不想把手弄髒,只想展現燒菜技巧,導致取得品質不良的原料,造成「垃圾進垃圾出」,模型怎麼調整都得不到好結果。一份完整的美食除了有很好的原料及加工(工序)外,擺盤和餐具也是影響顧客食慾的一大因素,所以一個完整的AI應用如何佈署訓練好的模型及參數到執行(邊緣)端並提供流暢的執行效率,也是影響使用者是否能給予好評的重要因素,不能等閒視之。

Fig. 5 人工智慧與咖哩雞飯工作流程(圖片來源:OmniXRI整理製作) (點擊圖片放大)

*迷思八:正確率越高越好


這句話表面上看來沒有什麼大問題,有誰不想正確率接近百分之百,但只靠正確率這樣就沒問題了嗎?更進一步請參考下一節「如何確認導入AI成效」中對各項指標的說明。


如何確認導入AI成效


前面提到一般人對人工智慧(AI)有著許多的迷思,因此對導入AI也常有著不合理的過高期待。因此不論是想藉導入AI來減少人力支出、提升(穩定)檢測品質、預測產能及故障維修周期等,都必須以適當指標來衡量導入效果。就實務上來說不是把指標訂的越高越好,這樣在導入時會有很大的挫折感。舉例來說一個想減肥的人,體重就是他的指標,假如他目前100Kg,目標是50Kg,若期望一個月要達成,則付出的代價及辛苦可能無法言喻。但如果把期望值改成一年達成,那就輕鬆多了。因此導入AI前要先量測目前以人工或是現有設備能做到的程度(指標分數),再訂立改善目標和期程逐步達成。當然過程中一定也會遇到撞牆期,怎麼改善都無法讓指標分數更好些,此時就要再重新檢討該算法(模型)是否已達極限,是否要再換個算法(模型)或是加入更多樣態的資料集來改善。

為了讓大家能更了解不同問題所適用的指標,以下就「分類」、「物件定位」、「影像分割」、「語音客服」、「自然語言(文本)理解」、「時序預測」等六大問題適用指標進行說明。

*分類問題


在前面迷思八中有提到大部份的人會以「正確率」作為判定導入AI的重要指標,但正確率高就表示AI完美執行並完成工作了嗎?其實並非如此,以下就各項常用指標進行說明。

假設有一測試資料集如Fig. 6所示,其中包含正例元素(Positive Elements)和負例元素(Negative Elements)(或可稱為正樣本及負樣本)。當執行某一AI演算法後可提取出一些元素(如Fig.6 藍圈所示),其中包含真的正例元素(True Positives, TP)和偽的正例元素(False Positives, FP) (就是負例被當成正例的樣本)。而未取提到的部份則包括偽負例(False Negatives, FN) (正例被當成負例樣本)及真負例(True Negatives, TN) (本來就不該提取出來的負例樣本)。一般來說真正例(TP)加上真負例(TN)再除以所有元素總數即可得到正確率(Accuracy),但如果遇到正負例數量極不平均時,那正確率就會失去表達能力。舉例來說,真正的良品佔總樣本數量95%,不良品數量佔5%,若把所有樣本都當成良品,經由正確率公式計算後,正確率為95%,表面上得到極高的正確率,但這樣的結果明顯不是我們要的,因為負例(5%)全部被無視了。

為更容易了解算法的可用性及避免正確率極易受正負例數量比例影響,目前許多人改用精確率(Presicision)及召回率(Recall)來做為參考指標,而不同應用領域對這兩個指標的高低要求也有很大的差異。所謂「精確率」是指提取出真正例(TP)佔總提取出樣本(TP+FP)總數的比例,而「召回率」或稱查全(查準)率、真正例(真陽性)率(True Positives Rate, TPR)、敏感度(Sensitivity),是指提取出的真正例(TP)佔總正例元素(FN+TP)總數的比例,可作為偽負例(假陰性)的量化指標。和召回率相反的是特異性(Specificity),也稱為真負例(真陰性)率(True Negative Rate, TNR),是指提取出的真負例(TN)佔總負例元素(FP+TN)總數的比例,可作為偽正例(假陽性)的量化指標。

以醫療影像為例,假設有病為正例(陽性),沒病為負例(陰性),真正例(TP)可視為醫生診斷有病而病人也確實有病,而真負例(TN)則是醫生診斷沒病而病人也確實沒病,以上狀況都是完美的。若沒病當成有病(FN)頂多病人虛驚一場,但有病當成沒病(FN)時馬上會產生醫療糾紛問題那麻煩可就大了,因此在醫療領域要求的召回率就會非常高。另外為了方便表達兩項指標的互動關係,亦可用F1 Score (或稱F-score、F-measure)來表達,其公式為二倍精確率(P)乘以召回率(R),再除以精確率(P)加上召回率(R)。

Fig. 6 分類正確率/精確率/召回率/F1測量 (OmniXRI整理繪製) (點擊圖片放大)

由上述說明可知,當算法變動或說篩選(分類)的門檻值變動時,FP和FN都會產生變動,而為了更進一步了解分類的品質好壞,常會再利用ROC曲線 (Receiver Operating Characteristic Curve, ROC)(如Fig. 7 左圖)或P-R曲線(Precision – Recall Curve) (如Fig. 7 右圖)來分析。ROC曲線圖的縱軸為敏感度(即召回率,真陽性率),而橫軸為1-特異度(Sensitivity),等於偽陽性率(False Positivity Rate, FPR)。當曲線為45度斜線時代表沒有鑑別度(是最差狀況),而Fig. 7上的A曲線優於B優於C。有時亦可改用曲線下方面積總和(Area Under Curve, AUC)來表示,面積越大分類效果越顯著。而P-R曲線圖的縱軸為精準度,橫軸為召回率。因P-R曲線橫軸和ROC曲線縱軸都是召回率,所以基本上這兩種表示方式有很大連動(關連)性,但又有些不同,至於採用那一種,亦或兩種都採用,則視不同應用領域有所不同。

Fig. 7 ROC曲線(左),P-R曲線(右) (OmniXRI整理繪製) (點擊圖片放大)

*影像物件定位問題


對於單一(影像、聲音、文本、數據)分類問題只需用到精確率(Precision)和召回率(Recall)大概就足夠。但遇到同一筆資料中有多個分類出現時(如從影像中找出多個物件並定位)就需改採平均精確率(Average Precision, AP)或者平均多筆平均精確率(mean Average Precision, mAP)來做為指標,接下來就以單一影像中出現多個物件為例作進一步說明。

首先要先定義一個物件是否被正確偵測到且位置也很正確,此時會利用真實物件邊界框(Bound Box)和偵測到的物件邊界框聯集區中交集區(Intersection Over Union, IoU)的佔比做為指標,如Fig.8所示,其公式即為交集區面積除以聯集區面積。當IoU = 1.0時為完全重疊(正確位置),而IoU值低於自訂門檻值時就視為未找到(負例元素)。接著對所有找到的物件(不管同一張影像出現幾次,出現在多少張影像中)計算P-R曲線,而曲線下方面積(AUC)即為對此物件的平均精確度(AP)。若再擴張到不同物件,假設有N種物件待偵測,就會求出N個AP值,可能有的高有的低,再對所有AP加總求平均,此時就可得到平均多筆平均精確率(mAP)。

Fig. 8 IoU定義圖 (OmniXRI整理繪製) (點擊圖片放大)

*影像分割問題


影像語義分割(Image Semantic Segmentation)基本上等於像素級分類,把每個像素進行分類,所以精確率計算方式可以用分類方式計算亦可類似影像物件偵測方式計算,如Fig. 8所示。假設像素會被分到k個分類(包括背景),而第i類像素正確被分到第i類的像素總數以Pii表示,而第i類像素分到第j類的像素總數則以Pij(包括Pii)表示。以下就介紹幾種常見的三種準確率指標(PA, MPA, MIoU)。

首先是像素準確率(Pixel Accuracy, PA),概念上和一般分類一樣,把分類正確的像素數量(Pii)除以像素總數(Pij)。再來是平均像素準確率(Mean Pixel Accuracy, MPA),則是先對每一類求PA,再把所有類的PA平均。最後是平均交集聯集比(Mean Intersection over Union, MIoU),先計算每個分類像素真實分類和預測分類的交集區大小(像素個數)和聯級區大小,再求出IoU,最後把所有分類的IoU加總求平均即可得MIoU。

Fig.9 影像語義分割及常見指標 (OmniXRI整理繪製) (點擊圖片放大)

*語音客服問題


語音客服主要目的是節省人力,取代以往電話語音客服工作,讓客戶能利用語音(或文字串)提問並快速得到已預設的答案,不需層層選擇。因此廣義來看這也可屬於分類問題,事先建好的問題答案對照表(Q & A Table)中的答案就等於待分類的項目,可參考分類項指標來評估。除了基本指標外,還可建立一個無法分類轉接真人客服次數的指標,方便未來強化問題答案對照表及分類精確性。

*自然語言(文本理解)問題


從一段自然語言(或一段文章)中要提取特定資訊,這部份較難定義定量指標來決定品質,可能要藉由真人建立評分資料庫後,再將分數當成訓練參數,以得到定量指標。另外亦可將此類問題重新定義成一般分類問題,那就可利用分類指標來作為定量評估基準。

*時序預測(回歸)問題


一般時序預測或線性(非線性)回歸問題,對於推論部份來看,通常只需把預測出來的值和真實值相減後就能得到差值,即可得知預測的準確性,所以通常不須特別指標。若不只想做單點時間預測而是要用評估一小段時間的預測品質,則可考慮使用「平均絕對誤差」、「均方誤差」、「中位數絕對誤差」等常用指標來評估。

如何出題以獲有效解題


從2019年第一梯次及第二梯次出題來看,雖然AIGO官方已有舉辦出題工作坊,也有提供廠商出題規範(指定欄位)來逐漸改善出題品質,但實際出題時還是很多廠商無法清楚表達需求,似乎是出題方為了保密,所以只能不斷強調待解問題很重要,期待有緣人來解題。更有些廠商將待解AI問題放大到系統(產品)級問題,猶如產品研發外包,導致單純AI解題方難以投入,間接造成難以媒合成功問題。綜合所有出題內容來看,智慧醫療領域出題方式算是比較理想的,因此也較容易找到合適解題團隊及方法,以下就個人觀點整理出題重點,可作為未來出題方及解題方參考,協助大家更快找到交集,順利讓AI應用完美落地。

首先是「問題定義」,要先確認是屬於「電腦視覺」、「自然語言」、「數據分析」或「混合類」大類,再來可再細分是「分類問題」、「回歸預測(時序預測)」、「問答對應」、「自然語言理解」、「資料探勘」或其它類型問題,因為這會連動到究竟要以何種指標來衡量結果是否接近人工處理能力,已滿足AI應用。

再來是「樣本範例」,大部份的出題方都未提供輸入及輸出資料樣本格式,包括影像、聲音、文本、數據,這會嚴重影響解題方可能提出之解決手段及方案。雖然有些廠商基於保密問題不方便提供,但出題時仍應備妥具代表性去識別化樣本資訊,以利解題方評估技術複雜度。

接著需說明「資料集」收集狀態,此次出題方在資料收集上大致分為「使用公開資料集」、「已收集足夠並已標註」、「有巨量資料但無標註」、「有少量標註和巨量未標註資料」、「無資料集待解題方收集、標註」,除了前兩項外,其它都會對解題方造成極大的負擔,如果遇到有特定領域專業知識才能標註時,若出題方無法支援教育訓練或協助標註,那案子失敗機率就會大幅增加。另外資料集收集及標註上由於執行方不同可能會產生智財擁有權問題,這部份則需事先約定好歸屬(出題方、解題方或共同擁有)以免造成糾紛。

另外明確的「標註規範」,不論是監督式、非監督式都是極度必要的,因為除了可提高標註水準外,對於各項指標的分數也會受此影響。另外像醫療影像標註時為求慎重,有時還須多位(不同經驗)醫生同時對同一張影像進行標註,以利確認其正確性及容許度。

最後對「評量指標」必須明確定義,可參考上一節「如何確認導入AI成效」中提到的各種指標。在定義範圍時,雖然出題方可無上限的要求,但實務上可能永遠做不到,因此合理的要求甚至暫時性的退讓或階段性要求都是出題方為求更快落地的妥協結果。

當然如果出題方有專屬的AI工程師當窗口,那對解題方來說就可減少許多溝通時間,也會有較多解題廠商投入。

附帶一提,此次AIGO官網僅提供出題方的資訊,但就媒合角度來看應該是雙向的,讓解題方也能透過AIGO官網自我介紹一下,展現一下團隊能力及經驗,不然僅靠不到十分鐘的輪桌會及後續面談可能難以讓出題方留下深刻印象。除此之外若能公開解題方資訊,即使此次無法媒合到合適廠商或太多解題方搶一個題目未能出線時,仍有機會被其它出題方或未出題廠商看到,這樣對促進台灣AI產業互動應更有助益,使AIGO這個平台更能展現其效益。


廠商出題快速摘要


為方便大家了解這100題大致出題內容,以下快速整理出題廠商名稱、標題並自行摘要內容,如需更進一步了解甚至參與解題,請直接至AIGO官網查詢。此次出題的大分類、技術子項重點說明和上一篇大致相同,這裡就不贅述,請自行參照「從AIGO業界出題內容看台灣AI如何落地」。

「自然語言」出題


*語言分類

1. 【百一電子】AI辨識語言類別:可自動快速分析一句話中每字詞語言類型(國台英)以利後續語意理解。

*語音合成
1. 【台灣戰略突破】數位教材之人工智慧配音模組:自動將數位教材的文字檔轉成語音檔並可選擇不同語音語調。

*語音客服

1. 【義大醫院】運用自我調節衛教模組結合手機智能小幫手對痤瘡病患治療的成效:利用APP記錄病患作息並提供語音機器人協助衛教工作。
2. 【內政部統計處】聊天機器人與內政統計查詢網的美麗邂逅:透過語音機器人協助民眾快速查詢各項內政統計及社會經濟資料。
3. 【華南銀行】智能語音對談及導航在銀行客服端之應用:利用語音機器人改善客服流程自動分辨基本問答或人工服務模式。
4. 【義大醫院】24小時飲食追蹤與全人體位管理:利用語音機器人取得病患飲食紀錄並建議正確飲食以達健康體位之管理。
5. 【高雄衛生局長照科】長照2.0偏遠獨居長者-AI語音應答車訊服務:協助年長者可以透過語音機器人獨立完成無障礙車的預約叫車。
6. 【高雄勞工局】勞工諮詢Chatbot服務系統:直接透過手機以語音發問方式查詢勞工相關問題。
7. 【高雄稅捐處】地價稅稅務客服機器人:利用語音機器人協助報稅人回答常見問題。
8. 【高雄衛生局疾管處】防疫專線QA智慧語音AI系統建置:利用語音機器人協助回答防疫及疾病相關問題。
9. 【義大醫院】虛擬用藥衛教機器人-共同守護用藥安全好幫手:利用語音機器人協助回答用藥及衛教問題。
10. 【四方通行旅行社】AI聊天訂房機器人:以LINE聊天機器人協助客人依需求找到合適住宿資訊並完成訂房。
11. 【北醫大附設醫院】急診檢傷分類AI助理:透過文字、語意辨識提供自動化檢傷分類工作。

*語義理解(intention understanding)

1. 【政大員生合作社】自然語言分析與精準行銷規劃:分析輿情預測熱銷商品以增加主要客戶消費金額。
2. 【內政部統計處】挖掘網路世界的文字寶藏-網路輿情分析:從網路輿情分析與內政業務相關資訊並分析正負向情緒以利調整施政方向。
3. 【松盟科技】智慧化作文評語系統:自動分析學生作文內容並依評分標準即時產生評語及分數。
4. 【一等一科技科技】WORD 表格處理成結構化資料格式:根據欄位文字說明自動轉換表單對應輸入格式以方便轉入資料庫。
5. 【順億超低溫冷】網路語音訂單小幫手:根據語音內容自動解析訂貨項目數量並轉成電子表單。
6. 【叡揚資訊】以智慧染整知識技術為基礎的智慧型人廠互動:利用語音或文字輸入查詢染整及機台保養知識庫。

「電腦視覺」出題


*人臉辨識

1. 【波阿斯居家智慧】AI 居家智慧鑰匙即時動態影像生物辨識:利用兩隻IPCAM同時交叉拍攝完成活體人臉辨識並用於智能門鎖。
2. 【大林慈濟醫院-影像醫學科】嬰兒室新生兒影像辨識系統:建立嬰兒臉部辨識系統減少核對時間及抱錯小孩問題。
3. 【方陣聯合數位科技】人工智慧與應用於數位行銷:偵測人臉並依性別、年齡、膚色、情緒等不同條件播放廣告。
4. 【哈瑪星科技】群眾影像情緒辨識系統:偵測群眾人臉並分析情緒以了解群眾參與活動感受。
5. 【哈瑪星科技】單一受測者體驗情緒辨識系統:分析單一使用者人臉情緒以了解使用者操作體驗的好壞。
6. 【松盟科技】證件照及資格文件自動審核系統:自動檢查證件照是否符合規定及資格文件上資訊是否和填寫內容相符。
7. 【百一電子】辨識小孩在聽故事時之反應:從影像中分析小孩聽故事的表情以利了解注意力及喜好程度。
8. 【新北市刑鑑中心】建立人犯照相相片身高資料庫,並判讀監視器中可疑犯嫌之身高及提供可疑名單:可從監視器影像中快速分析嫌犯身高配合人臉辨識以利縮小搜索範圍。
9. 【高雄市警察局】警察局智慧門禁系統:利用人臉辨識來加強門禁管控。

*文字辨識

1. 【福氣科技】病患處方箋介接藥師調劑系統之功能:利用手機APP拍下處方箋再用文字辨識(OCR)技術自動介接到藥劑調製系統。
2. 【國家圖書館】報紙影像透過AI辨識建立檢索資料:將巨量報紙掃描影像自動分析排版方式並以文字辨識提出標題、關鍵字及全文。
3. 【福氣科技】AI辨識進出貨單介接會計系統之功能:利用影像自動辨識出貨單文字內容並輸入至會計系統。
4. 【張誌銘會計師事務所】財稅會計2.0加值服務:根據影像自動分析發票內容並辨識會計科目。
5. 【中銀律師事務所】食品廣告文字辨識分析:從食品廣告影像內容中找出文字並辨別是否為違反相關法令。
6. 【新北市刑鑑中心】自動化文件歸檔:依掃描文件自動辨識文字內容進而自動分類歸檔節省人力。

*立體視覺

1. 【巨力搬家】空間影像辨識物件容積計算:利用影像計算空間內物件佔據容積以利估計搬運費用。
2. 【清展科技】遠端影像空間量測:利用手機影像估測室內空間及建材需求尺寸。

*光學檢測

1. 【大灃科技】無線接收器AI自動辨識檢測系統:建立自動影像檢測系統以偵測燈號及輸出信號。
2. 【晟田科技】切削刀具之汰換維修預測:以影像方式偵測刀具磨損狀況以利即時汰換改善製程良率。
3. 【雲逵科技】自動化CNC機械加工結合透過刀具、夾具AI影像辨識磨損影像功能,以即時提醒現場人員解決問題:根據影像自動分析刀具磨耗程度進而改善加工參數提升加工品質。

*行為(骨架、姿態)分析

1. 【台灣普利司通】AI自動檢測系統輔助輪胎成型作業的安全監控:以視頻分析員工操作機台動作以確保作業安全。
2. 【台灣普利司通】輪胎製程ROLL(滾筒)作業之捲入風險安全監控:以視頻分析機台操作時是否意外捲入工作人員並可即時停機。
3. 【百一電子】AI電腦視覺深度學習刷牙判斷動作:從視頻中分析使用者刷牙姿態、動作次數是否正確。

*物件偵測

1. 【嘉義市警察局】AI智慧影像辨識分析與智能檢索系統:利用行車記錄器拍攝影像快速辨識車牌、車型、顏色、車廠及人型等物件。
2. 【雲逵科技】AI麵包影像辨識:利用物件偵測方式自動結算所有麵包個數及價格。
3. 【松盟科技】光學劃記符號辨識即時批改系統辨識效能提升:以手機影像自動分析答題卡上符號以達自動算分及後續追蹤學習效果。
4. 【高雄市勞工局】工作場所危害影像辨識暨防災對策AI系統:根據影像找出可能造成災害物件以利提出防災建議及對策。
5. 【高雄市警察局】警察局派出所執勤裝備領用AI智慧化:透過影像辨識技術輔助執勤人員進行裝備領用、清點及管理。
6. 【宥錡航太】無人植保機農藥噴灑即時精準監控:利用空拍機取得影像進行農作物害蟲及病徵分析以利有效噴灑農藥。

*指紋辨識

1. 【新北市刑鑑中心】指紋橫向連結比對:可正確找出從不同現場採集到相同犯人留下的指紋。

*圖像標題

1. 【國家圖書館】人工智慧應用於「19-20世紀臺灣圖像資源」中英文關鍵詞之自動生成:根據圖像自動產生中英文關鍵詞便於檢索。

*語義分割(Image Semantics Segmentation)

1. 【中國醫藥大學】乳癌分期與超音波影像特性之相關性:根據超音波影像進行乳癌期別分類。
2. 【中國醫藥大學】胸腔X 光:根據X光影像進行胸部心肺相關病變分析。
3. 【大林慈濟醫院過敏免疫風濕中心】類風濕性關節炎手腕超音波影像判讀:利用手腕超音波影像協助判定類風濕性關節炎症狀及程度。
4. 【大林慈濟醫院影像醫學科】AI輔助判斷胸部病例與診斷影像:利用胸部X光片判斷肺結節等相關病症。
5. 【北醫大附設醫院】基於AI輔助之檢查報告暨影像判讀之應用實例:根據不同類型醫療影像建立自動病灶標記系統及影像分類。
6. 【高醫大附設醫院】人工智慧在全自動乳房體積超音波3D病灶的偵測和輔助診斷:根據超音波影像進行乳房病灶偵測並可分辨假影及乳頭影像。

*影像分類

1. 【環保署環測及資訊處】用空氣品質監測站周遭影像判識環境異常:根據影像協助判定是否有特定環境污染造成空氣品質監測異常。
2. 【高雄市芳境果菜運銷合作社】玉荷包荔枝選美計畫:利用影像分類解決農產品分類(分級)問題。
3. 【佳凌科技】干涉儀牛頓環形狀瑕疵判斷:利用干涉儀產生之量測結果影像來判定光學鏡片製造品質。
4. 【鍾和企業】利用人工智慧判定零件品名、規格:利用手機拍照並自動分類為何種螺絲及規格。
5. 【新北市刑鑑中心】圖形化鞋印特徵自動判別:自動分析鞋印特徵進行編碼及比對進而可反向找出鞋子種類。
6. 【髮拉儷皮膚科診所】AI皮膚檢測與分類:利用皮膚顯微影像進行皮膚病分類並產生治療建議。
7. 【高醫大附設中和紀念醫院】身體特徵相片快速分類:可快速將手機拍攝照片依身體特徵自動分類。

*影像合成

1. 【亞家科技】AI服飾搭配在銷售上的解決方案:根據使用者身形資訊自動產生紙娃娃系統模擬穿搭共享衣物後的視覺效果。

*影像迴歸
1. 【中國醫藥大學】以人工智慧建立自動化骨齡判讀輔助系統:根據手部X光影像進行18歲以下青少年骨齡自動化分析

「數據分析」出題


*生產優化

1. 【清展科技】鋁門、鋁框、紗窗製程動態同步排程規劃:利用生產訂單資料庫分析生產排程最佳化問題。
2. 【大灃科技】AI電腦輔助工業用無線遙控器出廠檢驗:建立自動化量測系統。
3. 【天星料管】生產排程導入AI智能:根據生產資訊來優化生產成本及排程。
4. 【清展科技】鋁件沖壓機異常停機問題分析:根據生產數據預測故障發生時機及項目以利提早準備對策。
5. 【和明紡織】梭織廠智慧排程最佳化AI分析:根據訂單、製程資訊找出瓶頸點並優化生產排程以減少生產時間。
6. 【和明紡織】運用AI分析梭織廠成本效益:根據過往訂單、生產、成本資料建立模型以精確預估成本及提供報價。

*時序預測

1. 【力菱機電】中央空調冰水主機能源耗電負載預測】利用天氣及冰水機資訊預測耗電及自動調整參數以達節能效果。
2. 【鼎鈞數位行銷】農特產品消費行為分析暨未來銷售預測:根據過往銷售資訊預測未來產銷方向。
3. 【美溪機電】基於放電加工聲音提升加工效率:利用放電聲音預測加工狀態進而改善放電參數提升加工效率。
4. 【雲逵科技】自動化機械加工整合AI主軸負載數據分析:根據主軸負載數據預測加工異常現象。
5. 【永智顧問】AI溫室氣體排放解決方案:依公司運營資訊結合溫室氣體排放量及外部數據預測及改善排放量。
6. 【先進醫資】個人化健康促進服務模型:根據個人健康數據分析並預測以提供改善健康建議。
7. 【翔安生醫】透析中低血壓預測之演算模型:根據洗腎機資訊及病人血壓狀態預測透析血壓降低問題。
8. 【高雄社會局家暴及性侵防治中心】家暴事件重覆通報風險預測系統:根據通報資料庫預測重複通報造成家暴的風險程度。
9. 【宇聯電子】切削加工的刀具突發崩斷問題解決方案:利用機台工作資訊分析並預測加工突發性異常情況。
10. 【高雄市農業局】利用市場價量預測模型輔助產銷決策及分散產期風險:依過往產銷、農情調查資訊進行未來三個月產能、價格預測。
11. 【天二科技】從客戶歷史交易資料與現有庫存資訊,藉由AI深度學習建立未來一季產品品項及備料數量預測模型:利用庫存及過往交易記錄預測未來一季備料數量。
12. 【永智顧問】AI碳權價格分析預測:依歷史交易價格預測碳權價格變化。
13. 【臺北市交通局】跨運輸系統之交通服務水準預測及影響關聯:依多項交通數據預測各運輸系統服務水準及運輸系統間之影響關聯。
14. 【北醫大學附設醫院】加護病房之AIoT(AI+IoT)醫療應用:依就醫資訊及即時數據預測加護病人狀態以利及早介入治療降低死亡率。
15. 【台灣受恩】室內定位資料預測長輩停留告警分析:根據室內定位資訊預測不正常活動以利建立預警系統。
16. 【商德星隆台灣分公司】螺絲成形機台動態備料排程:依據機台生產狀態預測缺料以利備料及提高設備稼動率。
17. 【先進醫資】AI健康風險預測:根據使用者健康資訊預測慢性病發生機率及提供對策。
18. 【日貿精密工具】AI 監控在加工產線刀具管理問題上的解決方案:利用生產數據進行刀具更換、壽命預測及管理。

*迴歸分析

1. 【叡揚資訊】染色機多目標預測及優化建議演算:整合水洗牢度預測模型以及總色差預測模型產生新染色預測模型。

*推薦系統

1. 【豐醇科技】智慧型鄉村旅遊自動排程推薦系統:依客戶輸入條件推薦合適旅遊行程。
2. 【豐醇科技】餐飲消費行為分析暨智慧精準行銷規劃:依POS結帳消費資訊推薦消費者合適之行銷活動。
3. 【高雄餐旅大學旅館管理系】餐旅人才職能進修AI推薦系統:利用學習歷程來推薦特定職缺所需加強進修的技能。
4. 【高雄餐旅大學旅館管理系】健身AI推薦媒合協力平台:依據使用者資訊自動媒合推薦理想健身房及教練。

*資料分類

1. 【商德星隆台灣分公司】螺絲成形機異常停機問題分析:依據機台生產異常資訊分析故障發生原因。

*資料探勘

1. 【肯瑪動力】從跨境電商平台交易資料、產品防偽機制與社群互動數據,建立超級用戶篩選模:依客戶交易資訊自動分群建立超級用戶篩選模型。
2. 【新北市刑鑑中心】鑑識資料庫資料探勘研究及分析:可協助從現場勘察資訊中找出特徵參數以利追查類似案件。
3. 【鼎鈞數位行銷】電商產品上架內容智慧過濾暨自動商品分類系統:依上架商品標題及內文過濾出違反規定文字及找出適合上架分類。

*資訊安全

1. 【高雄市政府資訊中心】電子郵件惡意攻擊之AI及時防護:根據發信行為自動分析是否為惡意攻擊並立即產生即時防護。
2. 【高雄市政府資訊中心】從網路流量數據中,以AI學習模式分析本府網路是否有異常連線行為:依連線時段、頻度、區域自動分析外部異常連線以利阻擋。


小結


人工智慧(AI)應用要完美落地,從資料、算力、算法及場域知識缺一不可,有充份的問題定義、執行指標及漸近式達標,相信不久的將來大家不再對AI有過高的期待,同時能更清楚什麼樣的技術(人才)手段可以解決何種AI問題,什麼樣的技術指標可以應用到何種場景,那麼成功導入AI就不再是遙不可及夢想。


延伸閱讀:





3 則留言:

  1. *語義分割
    1. 【中國醫藥大學】乳癌分期與超音波影像特性之相關性:根據超音波影像進行乳癌期別分類。
    2. 【中國醫藥大學】胸腔X 光:根據X光影像進行胸部心肺相關病變分析。
    3. 【大林慈濟醫院過敏免疫風濕中心】類風濕性關節炎手腕超音波影像判讀:利用手腕超音波影像協助判定類風濕性關節炎症狀及程度。
    4. 【大林慈濟醫院影像醫學科】AI輔助判斷胸部病例與診斷影像:利用胸部X光片判斷肺結節等相關病症。
    5. 【北醫大附設醫院】基於AI輔助之檢查報告暨影像判讀之應用實例:根據不同類型醫療影像建立自動病灶標記系統及影像分類。
    6. 【高醫大附設醫院】人工智慧在全自動乳房體積超音波3D病灶的偵測和輔助診斷:根據超音波影像進行乳房病灶偵測並可分辨假影及乳頭影像。

    筆誤喔!

    回覆刪除
    回覆
    1. 這裡的語義分割,是指影像語義分割(Semantic Segmentation)不是自然語言中的語義分割,如Fig. 8所示,是指對影像中的每像素進行分類(或說簡稱影像分割),說明不清造成誤解,敬請見諒。

      刪除
  2. 感謝網友來信告知「語意」筆誤為「語義」,在此簡單說明其差別。語義較偏屬語句結構分析亦可廣義視為語句欲傳達內容的意義,而「語意」較屬語句欲表達意圖。而影像分析中的「語義分割(Semantics Segmentation)」是借語言學名詞來用,是用於表達圖像中有那些元素構成及組織關係,現在多用來表達每個像素被分類到那個特定類別中,即影像分割和真正的自然語言分析無關。而「語義理解」中文上可解釋成語句結構及內容如何被解讀,以英文表示為semantic understanding,亦可解釋為語句想表達的意義或意圖,英文表示為 intention understanding,而個人較傾向後者。為避免大家誤解,已於本文上加上英文註解。

    回覆刪除

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! Edge AI Taiwan 邊緣智能交流區 全像顯示與互動交流區 台科大(NTUST) 人工智慧與邊緣運算實務 開南大學...