2028年12月31日 星期日

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考!


【課程及活動簡報】>>



【開源碼專區】>>



【系列發文專區】>>


2019年4月21日 星期日

從AIGO業界出題內容看台灣AI如何落地

人工智慧(AI)時代來臨 


2012年「AlexNet」完勝號稱影像分類領域最難的挑戰賽「ImageNet LSVRC」,成績大幅領先第二名近10%,正確率達85%,從此「深度學習」重新將機器學習分支中的「類神經網路」推向人工智慧(Artificial Intelligence, 以下簡稱AI)殿堂。在算法、算力及資料集的加持下,使得這幾年在影像、聲音、數據分析有越來越接近人類辨識能力的水準,「深度學習」功不可沒,因此2019年電腦領域最高榮譽的圖靈獎毫無疑問地頒發給深度學習三大推手Geoffrey Hinton、Yoshua Bengio和Yann LeCun。 

2017年科技部喊出「AI元年」口號並於2018年起成立四大「AI 創新研究中心」,台大負責生技醫療、核心技術、清大負責智慧製造、交大負責智慧服務、成大則負責生技醫療。同年初「台灣人工智慧學校」在學界及業界大力支持下順利成立,至今已有四個分校,培育數千位AI人才,學員遍佈各個產業,由此可知產官學研無一不重視這個可能影響未來的重大技術。 

話說在這樣的氛圍下,好像國父常說的大同世界老有所終(產業AI化)、壯有所用(AI產業化)、幼有所長(滿街AI人才)的美好世界就要到來,但實際狀況是每個人都害怕被這波潮流給淘汰或淹沒,所以紛紛加入AI浪潮中隨波逐流,人云亦云,好像不學一下AI就會馬上失業,而產業界搞不清楚到底AI能帶給自己什麼好處,好像什麼工作加上AI就萬無一失,給一堆巨量或微量的資料AI就能告訴我下一步怎麼做一樣,但目前AI的能力真得能解決所有問題嗎?AI人才所學真的能滿足這些需求嗎? 

人工智慧(AI)如何落地 


為了讓AI能落地,AI人才能發揮所長,不只是練練絕世大招,說的一口好算法及程式,各單位無不火力全開。科技部積極推動學界將AI技術成立新創公司,並推向國際。台灣人工智慧學校在純教學外,亦推出「移地解題」方案,讓廠商有機會利用AI解決業界痛點、讓學員(或自家派訓員工)有實際題目能發揮解題,同時能人才培訓後也能有新的工作機會。各大AI中心也積極推廣產學合作,使得AI能更貼近產業,不再只是發表論文,空有理論而無法落地。而在這波AI落地風潮中,由經濟部工業局主導、資策會推動的「AIGO」應該是最大規模「產業出X人才解題」的媒合活動。去(2018)年度成功募集到50道題目,共有33組團隊提出46案解題方案,不過由於時程較趕,九月才開始,所以出題業界及解題人才都無法充份交流,最後僅產出21個實際落地方案。

Fig. 1 AIGO官網畫面[1] (點擊圖放大)
 
今(2019)年度AIGO擴大辦理,三月說明會時已有38家廠商提出67項題目待解,不過在寫這篇文章的時間點(2019/4/14)已擴增到73題,後續五月還有第二波題目徵求,所以想大展身手的高手們,不要錯過了。此次資策會對提出需求的廠商有較明確的出題規範,包括題目名稱、敘述、分類、應用行業、資料型態、資料準備度、期望成果及更詳細說明的簡報,更重要的是提供了何種誘因(獎金、專案合作、就業機會及客源開拓等),這樣才能讓解題的人才能更了解是否屬於自己擅長的領域。而解題人才更關心的資料型態也要求廠商能明確說明解題人才所需技術、資料組成格式(欄位、無序)、資料集數量(大小)、標註資訊。當然近兩千萬的(入圍、解題到實證分階段)獎金也是鼓勵大家組隊參加重要誘因。 

為了讓大家更能快速了解到底出題的廠商希望解決什麼問題及所需的技術領域,以下就簡單幫大家整理一下重點,更完整的內容就請大家自行上AIGO官網查詢。首先以技術領域來區分,主要分為電腦視覺自然語言數據分析三大領域,而出題及瀏覽的比例大致接近,約略為5:2:3,如Fig. 2所示。而出題單位產業比例則如Fig. 3所示。而就應用領域來區分大致可歸納成智慧醫療、智慧教育、智慧零售、智慧製造、智慧交通、智慧城市、智慧服務等領域。 

Fig.2 依技術領域分類出題數量及瀏覽數量 (點擊圖放大)
Fig.3 依技術領域分類出題產業別數量 (點擊圖放大)


解題技術解析 


雖然此次資策會已針對出題廠商進行簡單輔導並協助評估如何將題目範縮小至真正需要AI解題範籌,但實際將73題全部閱讀後發現仍有許多廠商資料提供不清、目標無法量化(允收標準)或解題範圍大到一整個系統非單純AI問題。另外也有許多廠商將可以透過專家系統(人工提取多特徵求最佳解)或傳統電腦視覺(特徵提取比對)或大數據統計(資料採礦)分析手段就能解決的問題也當成人工智慧問題,好像在找專案外包商,有點小小失焦。更困難的是有很多廠商根本沒有提出數據或只有極少量數量,希望解題人才能協助收集、標註,也有提供超巨量資訊但沒有標註或分類依據就期望解題人才能建模撈出有效資訊甚至自動標註或分類,以上這些問題將嚴重影響解題人才投入的意願。當然像智慧醫療領域就相當有AI經驗(自有AI工程人員),提出的數據量、標註品質(醫生標註的)及專業領域知識協助、允收正確率、誤判率標準等資訊都相當充份,希望能找到高手一起協助解決。對於資訊提供不清的出題單位,猜想可能是因人力或能力不足的或許是廠商們不想透露太多商業機密,想等到見面會時再當面交流,若對特定題目有興趣的伙伴一定不能錯過輪桌接洽會的面對面討論。 

目前AIGO主辦單位(資策會)僅單純將技術領域分成「電腦視覺」、「自然語言」及「數據分析」三大領域,但這樣可能不夠清楚,以下個人就依常見的小分類(技術手段)為大家做更進一步解釋並針對相關出題內容簡單說明及歸類。不過個人能力有限,僅能就目前出題單位提供的公開說明資料自行理解分類,不一定和官網分類完全一致,若有誤解或說明不清的地方歡迎留言討論。以下僅提供出題單位、題目名稱及自行摘要概述,隨機排序,有些題目可能跨多個大分類或小分類,更完整的內容就請大家自行上AIGO官網查詢。

「電腦視覺」出題解析 


首先是電腦視覺(Computer Vision, CV)領域,主要分為「靜態影像」「動態視頻」二種資料來源,而靜態影像待處理的問題分為下列幾類。

*影像分類:

將單張影像分類至指定數量類別,或者轉成0~1的信心度(或機率)再由使用者決定其歸屬。亦可提出排序(Top-1, Top-3, Top-5)分數最高的分類給使用者參考,同時當成判定正確率做為驗收標準。解這類問題若是自然界常見物件,則多數會考慮直接拿ImageNet, Coco等資料集當來用,若辨識特定物件則可以前者資料集為基礎,再以遷移學習(Transfer Learning)來加快模型建立及訓練時間。而這類可用的模型相當多,算是相對比較好解的題型,大部份會發生不好解的狀況通常是訓練資料分類分佈很不平均、標註品質不好、標註數量不足,更嚴重的是有數萬張(或更多)待訓練的影像卻只標註了幾百張(甚至更少),甚至必須特定專業領域知識者才有能力標註的。

出題案例:
  • 【天氣風險管理開發】 AI道路監視器影像判斷降雨:利用影像分析地面、天空、雨跡、雨具產生即時天氣資訊。 
  • 【台灣楓康超市】 自動辨識水果甜度挑選水果方案:以影像方式辨識水果甜度。 
  • 【邑流微測】 半導體產線AI智動化影像檢測工具-與製程品質之關聯性建立:建立自動化影像分析系統連動品管關連性。 
  • 【佳穎精密】 AOI產線不良品影像自動檢測系統:端子、連接器生產品質。 
  • 【智慧領航教育科技】 AI頭皮檢測與診療方法判別:透過頭皮顯微影像進行問題分類。
  •  【華碼數位】 食物熱量影像辨識:利用影像估算食物熱量。 

*物件偵測:

不同於影像分類,單張影像中可以有多個(同類或不同類)物件出現,同時要標示出外框大小、位置、物件名稱甚至角度,比較接近人類認知及需求。同上分類,若是自然界常見物件且出題方未提供資料集,則可考慮直接拿ImageNet, Coco等資料集來用。目前此類的通用模型也有很多選擇,像RCNN, SSD, YOLO等,不過要採用何種模型則會依偵測正確率、計算量(速度)會有不同的考量。此類需求多半客製化需求很高,所以解題方常要協助標示並建立可用資料集。另外傳統的文字辨識(OCR)系統亦可當成物件偵測分類,先將文字逐字找出,接著再以影像分類來進行辨識,若要更準確檢測甚至要加上前後文自動修正功能。 

出題案例:
  • 【大同(股)公司】 AOI產品包裝自動檢測系統:檢查包裝內容型號、顏色及內容物件是否齊備。 
  • 【智慧領航教育科技】 AI頭皮檢測與診療方法判別:透過頭皮顯微影像標示特定問題大小、位置。 
  • 【台灣無人機應用發展協會】 無人機智慧影像自動即時判讀侵入禁區並和保全系統整合:以空拍影像分析是否有人、車違規闖入跡象。 
  • 【台灣無人機應用發展協會】 集會遊行之行動現場即時精準人數統計:利用空拍影像數人頭及人臉辨識。 
  • 【巨鷗科技】 影像辨識輔助工地監控工人職業安全衛生:利用影像辨識分辨是否有穿符合工安穿著。 
  • 【新漢智能系統】 如何讓AI物件辨識training變的更方便簡單:自動取得物件不同角度影像並產生自動訓練系統。 
  • 【新漢智能系統】 利用AI技術,讓機器人可判讀如何抓取之前沒見過物品:從影像中分辨如何抓取一個物件。 
  • 【來速捷物流】 利用AI技術辨識物流簽收單上之資訊:從掃描影像中辨識簽單號以利歸檔。 
  • 【華碼數位】 處方箋辨識與看診提醒:以影像辨識處方簽並依提取之資訊提醒用戶。 

*人臉辨識:

嚴格來說人臉辨識也屬於物件偵測分類,只是人臉對人的意義較大,關心的內容(性別、年齡、表情、身份、姿態等)也較豐富,所以特別獨立成一個項目來解決很多應用問題,目前在智慧零售、智慧城市及安全監控產業使用最為普及。由於這項技術已發展數十年,對於辨識正確率要求極高,要能克服攝影視角、光源、頭部姿態、模糊、遮擋等許多不穩定因素,因此想投入該領域的人須更加努力才能和大廠提供的技術匹敵。

出題案例:
  • 【台灣無人機應用發展協會】 集會遊行之行動現場即時精準人數統計:利用空拍影像數人頭及人臉辨識。 
  • 【鈊保資訊】 圖片個資偵測系統:從文件檔中找出人像及個資。 
  • 【中華民國超級馬拉松運動協會】 超級馬拉松即時人臉辨識應用:人臉辨識做為賽事確認、找自己照片。 
  • 【跨界策略顧問】 導入人臉辨識及Chatbot於大型會展活動之應用:透過人臉辨識及語音機器人系統應用於展會。 
  • 【百一電子】 AI電腦視覺辨識男生/女生的情緒與動作事件 :透過視頻分析性別、七種情緒、十六種動作行為。 

*語義分割:

所謂語義分割(Semantic Segmentation)和自然語言分析無關,而是指影像中是由多少物件組成及結構關係就像一句話結構,換句話說每個像素都須被精準分類,而不是像物件偵測只要畫個外框就好,而是要精準描繪出物件的邊緣。舉例來說一張影像中有一個人、兩隻狗站在藍天下、草皮上,則影像上的每個像素就要明確分類成人、狗、藍天、草皮。若再更進一步則稱為實例分割(Instance Segmentation),以上個例子來說,就是兩隻狗並必須再進一步分割,像素要分割成A狗和B狗,而不是兩隻狗所在像素都被分成狗的分類。因此這個分類的標註工作及計算難度、計算量也較「影像分類」、「物件偵測」高出許出。智慧醫療中使用最為普及,因為要精準標示出病灶所在,方便協助醫生從外觀輪廓、面積等條件精準判定是否為疑似病例,須進一步做檢查。 

出題案例:
  •  【台中童綜合醫院】 使用類神經網絡在X光影像上偵測結節與腫塊,以及標註生產線建置:從X光片中找出結節和腫塊並提供標註生產系統。 
  • 【台中童綜合醫院】 使用類神經網絡在X光影像上偵測與分類人工植入物:從X光片中找出人工植入物並提供標註生產系統。 
  • 【台中童綜合醫院】 胸腔電腦斷層之腫瘤輔助診斷,以及標註生產線建置:透過肺部斷層掃描影像偵測毛玻璃病灶與腫塊。 
  • 【高博思】 AI圖片去背功能:影像語義分割並提取。 
  • 【通騰導航】 以AI技術從光學空照影像中萃取道路中心線:透過衛星空照圖自動分析道路中線。

 *圖像標題:

這個分類是一種以圖像產生文字敘述的應用,簡單來說就是看圖說故事。所以首先必須能對圖像進行大分類,更進一步利用物件偵測技術找出圖像中的重要元素。接著再根據重要元素及預先安排好的多種句型產生說明文字,對於類似影像內容為避免答出完全一樣的答案,令使用者覺得太機械化,有時還要做一些句型的排列組合才可令回答更口語化。 

出題案例:
  • 【天氣風險管理開發】 打造AI氣象專家-自動天氣新聞稿:透過專業氣象圖自動轉成新聞稿。 
  • 【祥泰綠色科技】廢水處理與水回收系統生物診斷技術應用大數據AI分析:利用顯微影像進行水質分析並結合語音機器人完成客服。 
  • 【祥泰綠色科技】水體污染狀況顯微診斷技術應用大數據AI分析:建立即時顯微影像分析並自動生成對話通報。

 *影像生成:

影像生成技術主要是以一張圖像再產生另一張完整圖像的技術,如「風格轉移」、「自動上色」等。而知名的「對抗生成網路(GAN)」最常見的就是用一張人臉來生成另一張非常逼真但不存在的人臉。傳統圖像自動補洞(Inpainting)亦有利用此類技術完成,而去背(或稱摳圖)提取出特定物件則較偏影像「語義分割」領域。另外「影像增強」使影像去模糊或「超解析度(Super Resolution)」使圖像放大後仍保持清晰亦屬此類範籌。

 出題案例:
  • 【文鼎科技】 參照其他字重的完整對應將整套簡體向量字型轉成繁體向量字型:自動從指定字體學習字重並轉移至其它字體。 
  • 【百一電子】 運用電腦視覺AI技術生成/修飾/美化/抽象化照片 :將影像進行風格轉移或漫畫化。 
  • 【邑流微測】 AI 顯微影像辨識與優化:透過資料驅動方式強化(清晰化)影像以利後續計算。 

*立體視覺:

 傳統立體覺會採用雙攝影機完成雙眼視差計算來獲取場景中的深度資訊,近年來3D感測器(如Kinect, Real Sense等)興起使得這項技術就更為普及了。前者硬體成本較低,但需複雜的校正及巨大的計算量,不利一般人使用,而後者使用上非常方便,甚至微型化後還可裝進手機中,但其硬體製作技術及成本始終高居不下。因此深度學習興起後就有許多人想利用單攝影機拍攝單張靜態照片就想推估出接近的深度,來降低硬體成本及複雜度,但實際上若沒有足夠的算力一樣難以達成即時性的應用場景,至於使用何種方案會較為便宜就得看廠商把重點放在那裡了。 

出題案例: 
  • 【大同(股)公司】 AI陪伴機器人觸覺優化:利用機器視覺調校機器手臂使其更準確觸碰人體或送物。 
  • 【台灣利威國際物流】 使用影像辨識判斷貨物材積:利用影像計算貨物材積。 
  • 【百一電子】 AI電腦視覺平面辨識與直角辨識:透過影像計算出攝影機位置角度及物件所在平面空間。

而動態視頻問題解決方向主要有二大類,一種是將每一幀影像皆當成靜態來處理,但計算速度必須快過視頻頻率(一般要求遠小於1/30秒),每一幀所需分析內容和前後幀無明顯關連,此類相關應用多半亦可歸類在靜態影像問題。另一種是由多幀連續影像其中特定物件組成一個動作軌跡後,再依其軌跡相似性來進行行為(動作)分類。

 *行為(骨架、姿態)分析:

傳統電腦視覺要分析人體姿態、動作為單純化通常要穿上特定顏色或圖案的衣物,或者使用3D攝影機取得人體影像(自動去背),不然就要在身上關節點上綁滿紅外線反光球再配合動態補捉系統才能分析骨架、姿態或連續動作,但這樣的方式就無法應用到一般場景,或身著一般衣物,甚至在戶外有複雜背景情況下。於是有人結合3D模型所產生2D圖像及其3D資訊利用深度學習技術一起訓練而得到新的深度學習模型後,即可反過來用2D影像推估3D結構,而人頭的姿態、四肢的骨架甚至手指頭的結構就能被正確產生。再加上時間軸後,便可分析連續動作,如走路、跑步、跌倒、拿取等各種行為,更進一步還可分析多人互動,比方說跳舞、打架等,而這部份就比較像自然語言的處理及分析方式,只是把語音的一維序列變成三維(影像加時間)序列來識別。

 出題案例:
  • 【華碼數位】 體適能動作與姿勢辨識:以影像分析運動者姿態。 
  • 【宸訊科技】 利用動態影像辨識技術完成對農民於田間作業之行為分類與分析並能結合AI技術、配合專家互動,持續調整分類學習精準度:從串流影像中分析農業作業姿態(行為) 。 
  • 【集思動力】 iSEM多裂肌脊椎運動AI體況分析應用:透過影像、視頻分析人體動作姿態是否滿足特定位置、角度。 
  • 【百一電子】 AI電腦視覺辨識男生/女生的情緒與動作事件 :透過視頻分析十六種動作行為。 
  • 【良品嚴選】 客戶輪廓分析與服務人員及時輔助系統:從視頻分析客戶在店面行為以提供智能零售。 
  • 【良品嚴選】 線上連結線下新零售之AI分析:從視頻中分析行銷手段是否改變消費者行為。 
  • 【艾爾塔科技】 線下零售數據消費者行為洞察與全通路數據整合:透過人流資訊分析及預測消費者行為。 
  • 【卡訊電子】 智慧教室語音與影像偵測數據AI分析:建立語音、影像辨識老師、學生行為以增進學習效益。

 *軌跡預測:

預測一直都是人工智慧的重點,透過歷史資訊找出類似樣板就能合理推估即將發生的事件,像智慧製造的維修保養預測、智慧交通的車流預測、智慧城市的能源供需預測等領域都有大量應用。若想以連續視頻影像來追蹤或觀察特定物件(如車輛、行人等)之移動方向、距離、速度,就必須先利用影像「物件偵測」技術鎖定特定物件,再以其外框資訊(尺寸、中心位置)在時間軸上的變化來分析及預測。 

出題案例:
【鼎漢國際工程顧問】 市區交通路網AI路口自動化號誌控制:異質資訊分析車況以自動控制號誌改善交通。
【鼎漢國際工程顧問】 市區交通事件之車輛軌跡回測模型:利用視頻建立車流軌跡數位化。
【景翊科技】 利用路口車流影像分析車流數據:從視頻中分析路口不同車種通過及停留時間。

「自然語言」出題解析 


再來是自然語言處理(Natural Language Processing, NLP)領域,主要包括語音變文字、語意(文字意圖)分析、語義(文章)理解、語調(情緒)分析、文字變語音(語音合成)、語言翻譯等項目,而此次出題多半集中在「語音客服」「語音助理」「語義理解」相關應用上。 

*語音客服:

一般來說客服所需詢答的項目是屬於有限的,多半是預約、訂購、物流、資訊詢問等,通常可事前針對所有問答內容建立樹狀圖。傳統上最常見的就是電話語音客服,使用者透過不斷按鍵輸入選項來獲取所需資訊,但對老人家或沒有耐心的客人是很不便利地。因此近年來已開始有大量線上客服改成人工智慧自動應答的方式,客戶可透過語音或文字輸入口語化(自然語言)查詢內容,不須一層一層進入指定問題範圍,只需透過系統進行「語意(意圖)分析」自動對照到已安排好的問答內容上,就能快速得到文字或語音輸出,可大幅節省顧客時間及客服人力。

 出題案例:
  • 【童庭社會福利慈善事業基金會】 服務型虛擬機器人:建立語音機器人回答常見問題。 
  • 【福摩沙文化事業】 自動回覆客服機器人:自動回覆客服機器人。 
  • 【台灣楓康超市】 語音互動機器人:語音機器人。 
  • 【益欣資訊】 應用於連鎖品牌餐廳之語音機器人聯合訂位系統:透過語音機器人協助訂位並導引至有空位分店。 
  • 【天氣風險管理開發】智慧天氣問答機器人:協助建立生活化自然語料查詢天氣。 
  • 【祥泰綠色科技】廢水處理與水回收系統生物診斷技術應用大數據AI分析:利用顯微影像進行水質分析並結合語音機器人完成客服。 

*語音助理: 

不同於「語音客服」有參考題目及答案,語音助理更接近管家作用,可提供更生活化的對話及協助執行各種平台提供的行動服務,如家電控制、電商採購、資料查詢等,更進一步還可搭配「推薦系統」達到更貼心及個人化的服務。這項技術必須結合語音變文字、語義理解及文字變語音(語音合成)等技術才能完成服務,而由於技術門檻較高,訓練資料集不易取得,或者資料集過於龐大,因此常會整合各大廠提供的雲端語音服務。 

出題案例:
  •  【天鎏科技】 AI語音互動電子看板:虛擬語音(影像)助理(店員)協助介紹、推薦餐廳產品。 
  • 【旭智科技】 新手爸媽的1010天-自然語言辨識:透過語音機器人協助新手爸媽解決嬰幼兒問題。 

*語義理解: 

「語音客服」或「語音助理」通常只需分析一句話即可,但想了解一段話或一篇文章想傳達的內容或含義時就必須透過「語義理解」技術來完成。實務上大家更關心的是如何從社群輿論或新聞媒體中提取出重要關鍵字,進而能搭配「推薦系統」達成更多交易或增加客群黏著度。此類技術有部份可用傳統「資料探勘」方式來找出最常出現字詞(關鍵字)及之間關連,不須動用到機器學習或深度學習技術。至於要採取那種解決方式就看出題方及解題方各自的需求及技術能力了。

出題案例:
  • 【龍騰文化】 以關聯資源和題目的資料結構基礎,建立可自主的適應性深度教學和學習框架:提供老師及學生學習資源推薦系統。 
  • 【政治大學員生消費合作社】 運用網路輿論進行商品口碑分析:透過網路輿論分析熱銷團隊商品並協助自動化。 
  • 【通騰導航】 利用AI文字探勘技術挖掘社群媒體中的地理資訊:從社群訊息探勘出地圖需要更新資訊。 
  • 【七法股份有限公司】 裁判文書段落分段分類器:從裁判文書中自動分段。 
  • 【七法股份有限公司】 中文法學資料分詞器:透過分析大量判決資料建立中文法學分詞模型。 
  • 【七法股份有限公司】 中文法學資料新詞識別機制:透過分析大量判決資料自動建立中文法學新詞。 
  • 【三立電視】 新聞內容語意分析,萃取新聞關鍵字:透過新聞內容分類並提取關鍵詞。 
  • 【三立電視】 自動化分類與關鍵字推薦:分析新聞內容進行分類及關鍵字提取。 
  • 【鈊保資訊】 GDPR的自動分析系統:透過文字查找文件中是否有個人資料。 
  • 【鈊保資訊】特殊網站搜尋系統:透過文字分析是否為成人網站內容。 

「數據分析」出題解析 


數據分析類出題主要希望透過大量未標註數據提取出有用資訊或進行時序性預測,而前者大多可歸屬於「資料探勘(Data Mining)」類型,因為很多數據來源屬於結構化資料,欄位不多,所以通常利用統計技巧就可得到不錯的答案,甚至可以找出一些一眼看不出的結果及資料關連性,一般常見的「推薦系統」多半亦歸屬在「資料探勘」領域。由於目前一般人(非學、研領域)對「專家系統」、「資料探勘」、「機器學習」、「神經網路(深度學習)」領域分界沒有明確概念,所以通通算到「人工智慧」領域,可能造成出題和解題方認知不同的問題,須仔細溝通。當連續性數據需要找出特定重覆性時序樣板來進行預測時,此時就要藉助深度學習的自然語言處理(NLP)技術來進行分析,對於智慧零售預測熱賣商品、智慧製造預測機台保養週期、智慧城市預測能源供需及氣候變化、智慧醫療預測患者健康狀態都有很大助益。 

出題案例:
  • 【天氣風險管理開發】 利用氣象資料預測極端天氣:透過氣象(時序性)資料預測一周內氣溫及降雨。 
  • 【晶心科技】 用AI環保救地球:透過使用者習慣找出讓電池夀命延長方式。 
  • 【巨鷗科技】 運用大數據分析建立模型及挖掘旅遊趨勢!:透過大數據分析旅遊趨勢。 
  • 【大同(股)公司】AI能源監控在物業管理上的解決方案:透過各項表頭資料驅動方式找出適切環境品質。 
  • 【承啟科技】 智慧工廠:利用人工智慧分析工廠機具運營最佳化:依訂單及機台狀況達成工作分配最佳化。 
  • 【承啟科技】 智慧工廠:工廠能源管理最佳化:分析用電資訊達成節能。 
  • 【東稻家居】 年度產品銷售預測跟趨勢:利用過往資料預測來年熱
  • 賣產品。 
  • 【智慧領航教育科技】 AI POS機預測維護:透過數據分析預測無預警當機問題。 
  • 【魁籟國際】 由消費者在購物網站之活動行為分析行銷決策:分析使用者消費行為以利預測採購及精準推薦。 
  • 【魁籟國際】 社群媒體廣告投放效益與決策分析:分析消費者行為來決策廣告投放。 
  • 【樂活醫務管理】 心房顫動IoT數據分析:分析感測器收集到數據進行序列資料分析(分類)及預測。 
  • 【三立電視】 個人化新聞推薦系統:依用戶使用行精準推薦閱讀新聞及廣告。 
  • 【三立電視】 影片廣告插入點推薦:根據影片分析找出最佳投放廣告內容及時間點。 
  • 【益欣資訊】 線上商情分析智慧推薦系統:分析歷史數壉提供KIOSK精準推薦餐點系統。 

小結


以上僅個人簡單對此次AIGO出題內容的看法,希望有興趣參加的伙伴不要錯過了。個人深深覺得人工智慧未來將帶領世界產生巨大的變化,就像當年個人電腦問世一樣,雖然會造成一些工作消失,但是會創造出更多就業機會及生活便利性。目前在算法、算力、資料集及領域知識都到位情況下,只要把握機會讓AI落地,相信科幻電影中人工智能的情節不再是遙不可及的夢想。 

參考資料來源:
[1] AIGO官網 https://aigo.org.tw/ 
[2] FY108_AI智慧應用新世代人才培育計畫說明會簡報

2019年4月5日 星期五

樹莓派(Pi3+)安裝Ubuntu Mate 18.04心得

上一次用Ubuntu Mate在Pi 3B上跑是好幾年前的事了,當時只是為了偷懶,想讓桌機的Ubuntu和樹莓派都能用相同環境開發程式,但後來發覺Ubuntu Mate跑起來不但吃力,在看YOUTUBE時非常卡,且直播類型的內容(如新聞台)幾乎沒辦法看。但換回樹莓派官方的Raspbian就非常順,YOUTUBE也能看直播,後來才知道是因為是Ubuntu Mate並沒有支援硬體(GPU:VideoCore IV)。

這兩天Ubuntu Mate釋出最新的18.04版(https://ubuntu-mate.org/raspberry-pi/)號稱已可支援GPU硬體解壓縮,包含FFMPEG, VLC播放器都有支援,讓我又想試一下,沒想到結果和預期的還是有點不同,只好暫時擺著了。

此次釋出的版本分別有32bit/64bit獨立版本,我選了64bit版測試,首先下載好影像檔再燒到16GB SD卡上,放到 Pi3A+上執行,沒想到竟然開機後沒多久就出現失敗訊息,上Ubuntu官網上仔細一看才發覺自己看漏了,人家有說雖然可支援Pi3A+,但因記憶體(512MB)太少,要在其它板子(Pi3B or Pi3B+)上裝好再移過來,所以只好乖乖換到Pi3B+上安裝,過程還算順利。

裝好後急忙連到YOUTUBE測試一下之前沒法看直播新聞問題,大致上是可以播,但覺得還是有點小卡,打開工作管理監看程式看一下系統資源使用狀況,大吃一驚,四個CPU及記憶體(1GB另加128MB SWAP)都快被吃光,看來以瀏覽器(內建Firefox)執行時GPU可能還是沒被好好發揮。當把瀏覽器關掉後,CPU及記憶體馬上回復較正常的狀況。雖然CPU和記憶體已釋放出來了,但以視窗方式操作,反應總是會慢半拍,甚至要等個幾秒才能啟動程式,實在有點小失望。

測完Pi3B+後想再回頭試一下Pi3A+,此次可以順利開機執行到桌面部份,但仍因記憶體使用過於飽和,有很多程式開不起來,我想這個版本還是不適合Pi3A+上執行。

如果有那個朋友有興趣試一下,並且有比較好的結果,再煩請告知我那裡沒做好,先謝謝了。

2019年3月31日 星期日

Nvidia Jetson Nano真的比Google Edge TPU厲害嗎?

最近Nvidia推出Jetson Nano AI開發板,瞬間刷爆各大人工智慧社群版面,害得我本來整理好了十幾個AI開發板的文章頓時失去貼出的動力,因為Jetson Nano的低價(US$99)及高性能(472GFlops)輾爆所有開發板,包括Coral Google Edge TPU。

Fig. 1 三大AI開發板 (點擊圖片放大)

初步比較目前較夯的三大AI開發板Nvidia Jetson Nano, Coral Google Edge TPU, Intel (Movidius) Neural Compute Stick 2,如Table 1所示。嚴格說起來Intel的神經運算棒並無法單獨存在需要另外搭配有CPU的主機板,而樹莓派的算力太弱不足以稱為AI開發板,所以通常是把這兩者加在一起當成一組AI開發板,像Google AIY Vision Kit就是同類型的整合產品。

Table 1 AI開發板比較表 (點擊圖片放大)

目前這些AI開發板並沒有通用的比較基準,傳統上可用每秒可執行多少浮點數運算(Float pre Second, FLOPS)或每秒執行多少運算(Opertions, OPS)來比較。一般GPU或NPU多半被設計來做矩陣運算用的,所以A*B+C本來須要兩道指令(乘法和加法)才能完成,通常會變成一道指令就可執行,所以若以OPS表示時,就會變成兩倍,這樣就會造成執行速度較快的錯覺。

在深度學習的計算上,除了大量的矩陣演算外,尚有許多數百萬甚至數億個參數須要來回存取,受限於記憶體速度及頻寬問題,常會造成不同模型計算上會有不同的性能表現。打個比方來說,若車子一直在高速公路上行駛,則跑車的表現一定輾爆一般轎車。但若車子不斷地上下交流道,那跑車就不一定勝過一般轎車太多了。另外相同的模型在不同框架(TensorFlow, Caffe, PyTorch…)或者經過特別的優化(壓縮、剪枝),甚至依據硬體特性而修正模型,那也有可能產生計算效能(速度)的差異。

由於Google Coral Edge TPU上市沒多久,官方及民間高手還沒有大量提出測試數據,所以TPU到底有多厲害僅能從Alasdair Allan發表的文章[1]一窺究竟。這次NVIDIA為了讓大家知道Jetson Nano有多優秀,特別製表比較三大AI開發板的性能(如Table 2所示),不過根據這些公開的數據[2]比較,反而透露了一個重要訊息,就是不要太相信廠商提出的算力大小,參考一下就好。為何如此說呢?以Nvidia Jetson Nano和Pi3+NSC2二組開發板來比較,理論上硬體算力應該是固定倍率的差異,但在不同模型(算法下)竟然可以從差2倍到25倍,更令人費解的是,在部份模型中Google Coral Edge TPU竟然勝過Nvidia Jetson Nano,這中間到底發生什麼事了?個人猜想應該是特定模型在特定框架下剛好滿足TPU的最佳計算方式,所以得到較好的表現,還請各路高手提出高見解惑。

Table 2 AI開發板算法性能比較表[2] (點擊圖片放大)

不過不管誰家產品較為優秀,對於Maker而言,便宜又算力強大的AI開發板時代來臨了,以後就再也沒有藉口說算力太貴而無法做出好的作品了。
ps. 其實我在說自己啦,請勿對號入座!



本文歡迎轉發(貼)及非商業用途使用,若有引用部份文章或圖片時煩請註明出處、作者:「歐尼克斯實境互動工作室 作者:Jack Hsu」及本文網址,謝謝!

2019年3月24日 星期日

樹莓派(Pi 3+)安裝OpenCV 4 / QT5填坑心得

前年底(2017/12)個人開始了第一個開源項目「OpenQCam」,在這個項目中整合了最小的樹莓派Pi Zero W和一組SPI介面2.2吋QVGA(320x240)解析度的LCD加上二個實體按鍵和二個LED,並以OpenCV(2.4.9)寫了一個簡單的範例,完成了一個簡易型開源相機。去年底樹莓派推出了最新的Pi 3 A+、Pi 3 B+及Raspbian(2018-11-13),OpenCV也推出4.0(純C++版)並加強深度學習的支援。雖然樹莓派已可支援Tensoflow (1.9版以上)解決部份深度學習推論工作,但遇到傳統電腦視覺和深度學習問題要整合時,OpenCV或許更為合適,不過可惜的是目前OpenCV在樹莓派上只能使用CPU無法使用GPU加速計算。

Fig. 1 Pi 3A+ / 4” LCD / HDMI連結組合 (點擊圖片放大)


最近為了測試一下這個新的組合於是順手買了Pi 3A+、Pi 3B+、一組CSI介面500萬像素攝像頭及一組微雪4” HDMI介面解析度為800x480的LCD(如Fig. 1所示)。這次為了讓顯示內容更接近一般產品具有圖形操作介面(GUI),所以就預計用平常習慣使用的QT(C++ 版本)來進行程式開發。本想說之前已有很多次舊版安裝經驗,這次應該三兩下就搞定工作環境開始寫程式,沒想到又是一波多折。為了讓大家能順利進入開發環境,接下來就把踩坑心得分享給大家,避免重蹈覆轍。

1.    準備一張16GB SD卡,安裝完所有程序後大約剩3GB左右。

2.    到樹莓派官網下載最新版本Raspbian Stretch with desktop and recommended software 2018-11-23,再用Win32 Disk Imager將下載到的Image燒到SD卡。

3.    先不要依微雪4”LCD安裝步驟修改樹莓派config.txt,亦不要將樹莓派和LCD HDMI連接在一起,而是用HDMI纜線接到一台正常的HDMI螢幕(1280x720以上)或具有HDMI的電視上。這樣是為了方便後續遠端VNC操作時畫面不會太小。

4.    一般Pi 3都會要求使用5V 3A的變壓器供電,但使用2A的變壓器還是能開機且能正常工作,只是開機後畫面右上方會出現一個黃色閃電符號,表示供給電壓不足問題。

5.    將SD插入樹莓派,開機後會自動要求設定無線網路、語系、時區等基本設定,最後還會詢問是否更新系統,選擇「是」後視網路狀況大約等十到二十分鐘進行更新系統。這比以前要自己逐一設定要方便多了。

6.    更新完後先不急著重新開機,先到主選單/Preference/Raspberry Pi Configuration下Interfaces 頁面,將Camera / VNC 致能(Enable)勾選起來,再到Performance 頁面將GPU 64MB改為128MB。建議採用內建的VNC (RealVNC)不要另外安裝TightVNC以免後續遠端操作QT時會有問題。

7.    進入終端機模式,更新系統相依套件包及固件驅動程式,完成後再重新開機即可。
sudo rpi-update
sudo apt-get update
sudo apt-get upgrade
sudo reboot

以上步驟大致上不會遇到太多問題,接下來要安裝OpenCV / QT時就有很多設定順序及相依套件問題。一般若只用到基本的OpenCV 2.4.9版搭配QT 5.x版時,只需執行下列指令即可。

sudo apt-get install -y libopencv-dev python-opencv
sudo apt-get install -y qt5-default qtcreator

若要其版本的OpenCV就得自己重新編譯,但不知為何沒人提供預先編好的版本讓人直接下載自動安裝即可。

8.    為了讓大家方便安裝,可直接到Github下載預先整理好的安裝程序opencv_install.sh,直接執行即可。這裡我們安裝的是OpenCV 4.0.1, QT 5.7.1, QT Creator 4.2.0版本。
./opencv4_qt5_install.sh 或 sudo bash ./opencv4_qt5_install.sh

完整安裝內容如下所示:

sudo apt-get update
sudo apt-get upgrade
sudo apt-get install -y build-essential cmake unzip pkg-config
sudo apt-get install -y libjpeg-dev libtiff-dev libjasper-dev libpng12-dev
sudo apt-get install -y libavcodec-dev libavformat-dev libswscale-dev libv4l-dev
sudo apt-get install -y libxvidcore-dev libx264-dev
sudo apt-get install -y libgtk-3-dev
sudo apt-get install -y libcanberra-gtk*
sudo apt-get install -y libatlas-base-dev gfortran
sudo apt-get install -y python3-dev python3-pip
sudo pip3 install numpy scipy
sudo apt-get install -y python-dev python-pip
sudo pip install numpy scipy
sudo apt-get install -y qt5-default
sudo apt-get install -y qtcreator
cd ~
wget -O opencv.zip https://github.com/opencv/opencv/archive/4.0.1.zip
wget -O opencv_contrib.zip https://github.com/opencv/opencv_contrib/archive/4.0.1.zip
sudo unzip opencv.zip
sudo unzip opencv_contrib.zip
sudo mv opencv-4.0.1 opencv
sudo mv opencv_contrib-4.0.1 opencv_contrib
cd ~/opencv
sudo mkdir build
cd build
sudo cmake -D CMAKE_BUILD_TYPE=RELEASE \
    -D CMAKE_INSTALL_PREFIX=/usr/local \
    -D OPENCV_EXTRA_MODULES_PATH=~/opencv_contrib/modules \
    -D ENABLE_NEON=ON \
    -D ENABLE_VFPV3=ON \
    -D WITH_FFMPEG=ON \
    -D BUILD_TESTS=OFF \
    -D WITH_QT=ON \
    -D OPENCV_ENABLE_NONFREE=ON \
    -D INSTALL_PYTHON_EXAMPLES=OFF \
    -D INSTALL_C_EXAMPLES=OFF \
    -D BUILD_EXAMPLES=OFF ..
sudo make -j4
sudo make install
sudo ldconfig
sudo apt-get update

由於執行需要數小時之久,所以建議準備一個小風扇對著板子吹,以免CPU過熱變慢甚至當機。另外本來只想安裝Python3相關套件,但OpenCV編譯(make)到最後時一直報錯,所以只好python 2 & 3都安裝。另外make -j4是讓四核心都投入編譯工作,速度會快一些,但有時會遇到撞車問題編譯失敗,此時改用單核心編譯下達sudo make即可。

安裝時原本是用Pi 3A+,因為記憶體只有512MB,其中又有128MB和GPU共享,所以將SWAP空間由100MB加大到1024MB,但結果依舊多次編譯失敗,最後只好移至Pi 3B+上重新依上述程序編譯成功後再複製SD卡到Pi 3A+上執行其它工作。

9.    完成安裝後可利用Python3簡單測試一下是否成功,在終端機執行下列命令,若成功出現OpenCV版本號即完成。

Python3
Import cv2
cv2.__version__

完成所有安裝後,在左上角主選單「軟體開發」下會看到Qt Creator,點擊後即可進入QT開發環境。使用前要設定編譯工具相關路徑(如Fig. 2所示)。

Fig. 2 QT編譯器設定 (點擊圖片放大)


10.    選擇「主選單」─「工具」─「選項」,再選擇左側「建置並執行」,進入右側「Compilers」頁面,選擇「新增」─「GCC」─「C」建立新編譯器,在名稱欄輸入「GCC」,在編譯器路徑輸入「/usr/bin/gcc」。同樣方式再新增一「C++」編譯器設定,名稱「G++」、路徑「/usr/bin/g++」。

11.    接著再切到「Kits」頁面,點選清單中的「桌面」,在下方「Compiler」項目的「C」「C++」點選下拉式選單的「GCC」及「G++」即完成設定。

12.    為了確保攝像頭可以正確工作,須先至終端機下輸入「ls /dev/video0」檢查是否已掛載成功。若沒看到「video0」則執行下列命令

sudo nano /etc/modules-load.d/modules.conf

在最下方加入 bcm2835-v4l2 按Ctrl+X 離開時,按「Y」儲存,再執行「ldconfig」進行系統刷新,此時再查詢一次「ls /dev/video0」若仍沒看到,檢查排線是否插好,再重新開機即可。

13.    接著再測試攝像頭是否能正確拍照,可利用內建程式在終端機執行

raspistill -o test.jpg

完成上述程序後,原本以為就可用QT快快樂樂寫OpenCV程式,沒想到OpenCV4竟然和之前版本設定不同,把原先include路徑/opencv2搬家了,因此須在QT專案檔中(*.pro)需修改成下列設定才能正常工作。

14.    LIBS += /usr/local/lib/libopencv_*
         INCLUDEPATH += /usr/local/include \
                                        /usr/local/include/opencv4 \
                                        /usr/local/include/opencv4/opencv2

15.    OpenCV對於圖形化介面(GUI)處理非常弱,所以需要搭配其它如QT這類工具才能把輸入及結果影像嵌入程式中,但因各家GUI工具對於處理OpenCV產生的圖像存儲格式(cv::Mat)轉換方式不同,為方便大家測試,請至Github下載完整的範例程式專案,程式附有完成註解,這裡就不多作說明了,如有任何問題歡迎留言討論。

16.    最後為了能在4” LCD上正確顯示,必須依微雪文件指示修改/boot/config.txt,這個檔案可直接在樹莓派上修改,或者將SD卡放到讀卡機插入一般WINDOWS或MAC電腦上,在根目錄下就可看到此檔案。

17.    另外提醒一下,由於LCD解析度只有800*480,遠端VNC執行QT時有些內容會被遮擋不好操作,所以建議兩組config.txt方便切換有LCD和沒有LCD時的操作。

寫到這裡大致上坑也填的差不多了,再來就可把重心放到OpenCV的程式開發了,後續有機會再撰文說明OpenCV如何整合DNN模組完成深度學習的應用,敬請期待!

完整安裝程序及範例 https://github.com/OmniXRI/OpenCV4_QT5_Pi3



參考文獻:

[1] 樹莓派官網 https://www.raspberrypi.org/downloads/raspbian/
[2] Install OpenCV 4 on your Raspberry Pi https://www.pyimagesearch.com/2018/09/26/install-opencv-4-on-your-raspberry-pi/
[3] 微雪 4" HDMI LCD http://www.waveshare.net/wiki/4inch_HDMI_LCD


進階閱讀:

OpenCV 4.0千呼萬喚始出來 https://omnixri.blogspot.com/2018/12/opencv-40.html
OpenQCam樹莓派開源迷你相機 https://omnixri.blogspot.com/2017/12/openqcam.html

本文歡迎轉發(貼)及非商業用途使用,若有引用部份文章或圖片時煩請註明出處、作者:「歐尼克斯實境互動工作室 作者:Jack Hsu」及本文網址,謝謝!

2019年3月10日 星期日

AI晶片如何評比效能

這幾年人工智慧迅速發展,大家都說自家的晶片計算能力最強,但始終沒有一個標準。去年中在安卓手機上出現了以Android NN SDK(安卓作業系統8.1以上才有支援)開發的AI Benchmark APP才開始有了較公平的比較方式,在這樣的評測平台下,不管晶片中有CPU、GPU、NPU、DSP或其它加速IC,只要有提供支援NN SDK的驅動程式,此時就能在同樣的程式及測試條件下下進行比較,就像大家在比較顯示卡能力時,OpenGL就成了大家公認的評估基準。這款AI Benchmark提供了九種測試情境涵蓋常見AI應用及算法,包括影像中的物件偵測/分類(MobileNet V2, Inception V3)、名人人臉辨識(Inception ResNet V1)、影像去模糊(SRCNN 9-5-5)、影像超解析度(VGG 19, SRGAN)、影像語義分割(ICNet)、圖像增強(ResNet 12)、記憶體限制(SRCNN 9-5-5)等,並提供數十種手機的跑分結果方便大家進行比較,有興趣的朋友可以參考 http://ai-benchmark.com/tests.html

AI Benchmark APP (點擊圖片放大)

大陸方面在建立AI晶片評測標準相當積極,去年底(2018/10)才由人工智能產業發展聯盟(AIIA)發佈「人工智能端側芯片基準測試評估方案Version 0.5」,今(2019)年三月就針對兩家晶片完成首輪評估工作,包括麒麟980及瑞芯微RK3399兩款晶片。其評測項目包括四種應用場景(影像分類、目標辨識、語義分割、超解析度)、九種網路模式及兩種關鍵測指標(時間及算法性能)。為使更多廠家加入此一評測基準,目前已將代碼開源到Github,有興趣的朋友可以參考 https://github.com/AIIABenchmark/AIIA-DNN-benchmark

AIIA AI晶片評測標準 (點擊圖片放大)

更完整的新聞報導請參考:http://zhidx.com/p/142335.html

2019年1月21日 星期一

【課程簡報分享】逸凡科技企業內訓_AI如何結合大數據改變未來世界

很高興今天(2019/1/21)受邀到逸凡科技分享AI入門知識,協助大家建立基本觀念。本次課程內容主要針對非工程人員,所以已避開許多數學及理論的介紹,希望藉由此次的課程能讓大家更進一步了解「人工智慧」與其相關應用。以下就是本次簡報內容,如有任何意見可在討論區留言,謝謝! 【點擊圖片可放大觀賞】









































2018年12月17日 星期一

Siggraph Asia 2018 先進技術(Emerging Technologies)解析

「ACM Siggraph」是電腦圖學及人機互動最頂級的研討會,從1974年舉辦至今,主辦地幾乎都在美國,為了讓亞洲地區優秀的研究人員能就近參加,因此自2008年起另外成立「ACM Siggraph Asia」研討會,由亞洲、澳洲地區輪流主辦,其投稿難度亦不亞於「Siggraph」,今(201812/4~12/7)年度首次於東京舉辦。

Siggraph Asia研討會中除了精采的論文發表外,更有許多概念性的先進技術(Emerging Technologies)被推出,包括電腦圖學整合應用、人機互動裝置、實境互動(AR, VR, XR...)應用、特殊顯示器等項目。這個項目通常會吸引最多人駐足參觀,因為可以現場直接感受一下最具未來感的體驗。

今年「先進技術」項目共收錄了18組作品,其中有兩組來自台灣,台大、交大各一組,其餘都被日本學界和業界包辦,雖然往年日本在此項目為主要大宗,但今年竟然沒有其它國家作品入選,實在有點令人不解。今年官方釋出的影片只有收錄9組精采片段,而其它部份可能就得自行參閱官方網站了。接下來就依影片內容順序幫大家摘要一下這些精采作品的概念,希望能讓大家能對這些技術更多了解,如有個人認知錯誤或有其它看法歡迎留言一起討論。

Siggraph Asia 2018 Emerging Technologies 官方影片:

影片來源:Youtube (如遭移除敬請見諒)

[1] Magnetact: Magnetic-sheet-based Haptic Interfaces for Touch Devices


一般平板電腦都有觸控功能,主要是利用表面電容值改變來判定是否按下及位置、壓力等參數,但操作上總覺得少了些實體感,於是該團隊提出透過組合磁性橡膠板或導電材料來當作實體操作的介面,做出如開關、旋鈕、滑桿等項目,讓使用者能更直覺操作,且不須昂貴的設備及技術。


[2] Gill+Man: Breathing Through Gills Experience System


莊子說:「你不是魚怎知魚快不快樂」,所以這個團隊就讓你有魚呼吸的感覺,改用鰓來呼吸。系統主要包括三個裝置,呼吸感應設備,呈現吞嚥感覺的設備和一個給你像透過鰓呼吸感覺的裝置。當你呼吸時會讓讓類似鰓的機構同步動作,拍打你的喉嚨。當透過虛擬實境(VR)眼鏡看到像魚的視角加上魚鰓的動作,就會讓你瞬間變成一隻魚。


[3] Tangible Projection Mapping: Dynamic Appearance Augmenting of Objects in Hands


一般光雕也可歸類在擴增實境(AR)領域,因為眼睛可同時看到虛擬(投影)影像和實體物件。但常見的光雕都是投影在固定物件上,如大樓外牆或白色雕塑作品上,但拿在手上的光雕肯定少見。這個團隊先建立特定實體物件(如兔子、人頭、茶壼)的3D模型,再製作好相關靜態或動態貼圖,當手持物件時利用深度攝影機即時計算出物件的姿態,再投影對應視角內容,如此就可讓本來純白色的物件,立刻變得非常鮮豔充滿趣味。


[4] Spatially augmented depth and transparency in paper materials

一般像漫畫這類2D平面影像看起來較無立體感,而3D影像經過透視視角處理,增加陰影、反光後就能讓渲染在平面上的影像看起來也能有不錯的立體感。這個團隊利用這個特性將一個簡單的圖案,投影上動態漸層(具透明感)陰影,就立刻讓平面圖案好像浮出紙面,令觀賞者有意想不到的驚喜。


[5] RFIDesk: An Interactive Surface for Multi-Touch and Rich-ID Stackable Tangible Interactions


這項技術是由台灣大學團隊提出的,主要結合多點觸控和透明可堆疊的積木來令桌面成像及互動變得更有趣。最底層的平面是一個具有觸控能力的螢幕,而每個透明積木中有射頻識別標籤(RFID),如此就可得知是那一種積木被堆疊起來。加上積木是透明的所以除了可以有效得知使用者操作的動作外,還可以看到底下顯示內容的改變,讓整個互動變得非常靈活,可作為另類桌遊或教育用途。


[6] Hap-Link : Wearable Haptic Device on the Forearm that Presents Haptics Sensations Corresponding to the Fingers


這項技術主要是在前臂上戴上一組裝置,當壓迫肌肉時可使手指產生相對應的觸覺,相較於別的觸覺產生器體積大且重量重,這樣技術有明顯優勢。目前這項裝置除了可以透過不同的壓力及振動方式壓迫前臂肌肉令使用者產生不同的觸感外,另外亦有加熱裝置使其可以產生高溫仿佛摸到很燙的物品。當裝置以較大力量夾持手臂時就能產生手掌抓取物件的感覺。因此這項裝置很適合配合虛擬實境互動時能有更真實的感受。


[7] FacePush: Experiencing Pressure Forces on Face with HMDs


這項技術是由交通大學團隊提出的,主要是在虛擬實境(VR)頭戴式顯示器兩側增加一組會往臉部推擠的致動器(馬達),使得操作者能在臉部有更明顯的壓力反應。透過不同的壓力產生模式,如強弱、間歇就可模擬出不同情境,而這裡提供兩種體驗場景,一種是拳擊比賽,當被對手擊中時臉上亦會產生振動,就像真的被打到一樣。另一種則是以較和緩的壓力變化來模擬潛水時臉部有水流過的感覺。


[8] Magic Zoetrope: Representation of Animation by Multi-layer 3D Zoetrope with a Semitransparent Mirror


跑馬燈(Zoetrope)是最早產生動畫的方式,後來有人將其改成3D模型的連續動作加上高速閃光燈以產生更令人稱奇的視覺效果,在周杰倫主演的「出神入化第二集」中那個雨向上飛的橋段便是使用這種技術。在這裡該團隊用了兩組(內、外圈)3D模型連續動作,一組慢(走路)、一組快(跑步),內外用一組半透鏡隔開,當內圈光線較暗(不閃光)時,觀賞者只能看見外圈影像,而當外圈不閃光而內部較亮時,反過來只能看到內圈影像。所以當內外閃光頻率經過一定調整和錯開就能同時看到內、外圈影像,產生令人不可置信的神奇視覺效果。


[9] Edible Projection Mapping


可以吃的光雕投影乍聽之下和前面[3]提到的手持式光雕技術似乎一樣,但這裡有很大不同,他們巧妙的利用一塊可以吃的矩形寒天果凍(Kanten)來反光變成光學標記,所以只需一個普通的網路攝影機就時即時追蹤及偵測盤子的距離,進而改變投影內容。這樣的作法和一般標記型(Marker)擴增實境(AR)原理相同,計算矩型大小和變形(扭曲)程度就可算出投影矩陣(Perspective Matrix)。當使用者玩夠了投影帶來的樂趣後還可把食物都吃掉,這樣的體驗一定令人終生難忘。
 

另外還有9項技術未收錄至影片中,有興趣的朋友可自行到 SIGGRAPH Asia 2018官方網站作更進一步了解。

ACM Siggraph Asia Emerging Technologies官網:
https://sa2018.siggraph.org/en/attendees/emerging-technologies/session/62

延伸閱讀:
SIGGRAPH 2018 先進技術(Emerging Technologies)解析
https://omnixri.blogspot.com/2018/08/siggraph-2018-emerging-technologies.html


【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! 【課程及活動簡報】>> 【開源碼專區】>> 【系列發文專區】>>