圖/文 歐尼克斯實境互動工作室 許哲豪 2020/4/9
2019年底中國大陸武漢地區爆出大量不明肺炎患者後,旋即擴散到全世界。國際病毒分類委員會(ICTV)依病毒特徵類似造成2003年「嚴重急性呼吸道症候群(SARS)」,於是在今(2020)年2/11正式命名為「SARS-CoV-2」。而世界衛生組織(WHO)為了避免疾病名稱冠上地名造成歧視,亦於2/12將此疾病由俗稱的「武漢肺炎」正式命名為「新冠肺炎(COVID-19)」。
這項疾病僅僅三、四個月就造成全世界一百八十多個國家,一百三十多萬人確診感染,八萬多人不幸因病離世,而且這個數字還在不斷爆增中[1][2],猶如第三次世界大戰,因此各國及各大城市紛紛開始進行封城或降低社交活動以減緩疫情擴散。
回想2003年SARS造成亞洲地區嚴重傷害,雖然當時也沒有精確有效的醫療方法及藥物,但幸運地是不到半年疫情就莫名消失,經濟也在疫情結束後得到報復式成長,一掃先前不景氣造成的困境。不過這一次新冠肺炎(COVID -19)的疫情看起來不像當年那樣樂觀,因此世界各國無不繃緊神經,集結各領域產官學研專家、民間富豪、慈善機構及各路高手一起來腦力激盪,以期望除了能快速控制疫情外更能穩定經濟及失業率。
在此危難時刻有些人就把希望寄托在這兩年當紅的「人工智慧(Artificial Intelligence, AI)」上,而到底有那些AI技術是馬上能幫上忙的,有那些共享的AI資源可以使用的,接下來就為大家快速盤點一下,方便有心想投入AI防疫的朋友可以找到發揮的空間來超前部署。
Fig. 1 COVID -19各國確診人數變化圖(2020/1/21~2020/4/8)。(資料來源:[2])(點擊圖放大) |
AI技術、應用領域及處理情境
話說AI發展至今已五十多個年頭,歷經感知器技術(Perceptron)、專家系統(Expert System)、機器學習(Machine Learning)、數據採礦(Data Mining)等階段,中間大起大落經歷數次寒冬,直至2012年因深度學習(Deep Learning)(或說類神經網路(Neural Network))技術獲得重大突破,才又有這一波AI的新浪潮。這中間除了演算法的不斷精進外,若沒有巨量資料集共享、算力的突飛猛進及領域知識的加持,是不會有今日百家爭鳴、遍地開花的局面。
目前AI較常見應用領域大至可分為「數據分析」、「電腦視覺」及「自然語言」等三大類。而面對這一波的疫情AI主要適合處理的情境包括「疫情物資預測」、「防疫藥物開發」、「檢疫智慧管理」及「臨床診斷輔助」。接下來就分別針對各項防疫情境會面對的問題、所需用到的AI技術及有待努力的瓶頸作更進一步說明。
Fig. 2 人工智慧發展及AI防疫應用情境。(OmniXRI整理繪製 2020/4/9)(點擊圖放大) |
【疫情物資預測】
目前直接防疫物資從人員(如醫護、加工製造、運輸等)、材料(不織布、醫檢試劑等)、設備(口罩機、紅外線熱像儀、額溫槍等)到成品(如口罩、酒精、呼吸器等)大都已由政府單位緊急列管,所以可由較簡單的數學公式得出單位時間可獲得的數量,進而得知需要投入多少資源(人、錢、時間等)才能滿足整體需求,較不須太多AI投入。但其它間接防疫物資如食物、民生用品、非疫情用藥、工業零件、加工原物料等是否會受進出口影響變相造成另類重災區,就必須透過更多如政府資料開放平台[3]、各類公協會長、短期統計和同期對比資料及民間商業(國內外趨勢)分析數據加以協助,才能進行精準預測並提醒及早準備。
在傳統「數據分析」及「資料採礦」領域中視資料維度多寡多半可利用統計學(如線性迴歸、邏輯迴歸等)或部份機器學習理論(如向量支持機SVM、決策樹DT、隨機森林RF、聚類、降維等)加以建立預測模型,相當於利用過去曾發生的內容及時序變化來推估未來可能發生的結果。
目前對於疫情預測多半會參考送檢、排除、確診、死亡、解除(回復健康)等案例數量來進行疫情變化預測,但這些數字會受大量外界因素(如人員移動、接觸史、傳播數等)干擾所以很難正確估測。就像單純只看當地過去兩、三天的氣溫、濕度變化,而不參考衛星雲圖、地形及其它週邊因素就要預測明、後天的天氣一樣不可靠。
換句話說,這樣的預測很容易落入數據不足、模擬超準、實際預測落差太大的過擬合(Overfitting)現象產生。若再加上人為干預因素(如飛機停飛、居家隔離、降低社交、保持距離、配帶口罩等)則要建立預測模型就更不容易。因此如果想要更精準地預測疫情就必須加入更多變數(如交通運輸量、民生用藥變化、行動通訊量、其它影響傳播數量因素等)及鄰近區域變化(如地區、國家等)。
如以前Google Flu Trends服務[4] (2008~2015)利用搜尋關鍵字的頻度統計來輔助預測流感發生地區。或者像BlueDot利用新聞媒體報導、社群網站討論、各國動植物疾病狀態及機票數據變化等各項資訊來分析下一個可能爆發疫情地點,再交由專業流行病研究人員判定真偽及可能性 [5]。
【防疫藥物開發】
目前新冠肺炎(COVID-19)並無有效疫苗及可靠治療藥物及方法,同時也很缺乏快速篩檢確診患者的工具及試劑,因此各國研究人員只能先從過往類似疾病(如SARS, 流感等)的治療方式進行測試,但效果都不顯著。在這種疫情快速蔓延的情況下,若只靠研究人員以猜想及試錯的方式找尋新藥那就太曠日費時、緩不濟急。
傳統上雖然已有許多藥物開發工具或基因比對工具可進行模擬測試用以找到候選新藥,主要依賴超高運算能力電腦進行大量匹配計算,但如果沒有一些特定方向縮小搜索範圍,那就如同海底撈針一樣困難。若此時藉助AI的「自然語言處理(Natural Language Processing, NLP)」分析方式協助搜索大量相關研究報告及論文,那將大幅降低科研人員的負擔及提高開發新藥、疫苗及試劑的時效。
今年二月初行政院便邀請台灣人工智慧實驗室(AI Labs.tw)共同協助以AI技術來進行疫情預測、藥物篩選、X光影像診斷及文獻分析。期間推出AI抗疫平台網站 [6],並推出世界第一份「老藥新用」建議清單 [7],同時共享了很多數據以利全世界共同研發。其它國家及開源社群也不約而同的開放相關資源供大家使用,以下就簡單列舉幾個適合以NLP技術的文獻資料集。
* 台灣人工智慧實驗室 variant2literature [8],收錄八百萬篇論文全文和三千萬篇論文摘要。
* Kaggle - COVID-19 Open Research Dataset Challenge [9],提供十項挑戰,收錄三萬六千多篇SARS, COVID-19相關論文全文。
* Semantic Scholar - COVID-19 Open Research Dataset [10],收錄四萬七千多篇全文,三萬六千多篇COVID-19相關論文全文。
* Google Scholar – COVID-19 [11],約有二萬四千多筆搜尋結果。
另外台灣旅美大數據分析專家Graphen創辦人林清詠亦整理了世界各國COVID-19病毒基因序列並建立首個基因演化路徑分析網站 [12]並將其關係可視化,期望更多科研人員及廠商能透過這些病毒的演化歷程來開發相關新藥、試劑及設備。
Fig. 3 Graphen COVID-19基因演化路徑分析(資料來源:[12],OmniXRI整理繪製 2020/4/9)(點擊圖放大) |
【檢疫智慧管理】
為了降低疫情的傳播,現階段政府除了建議大眾減少外出,出入人多地方戴口罩外,對於有傳播風險的人分別以「自主建康管理」、「居家檢疫」及「居家隔離」等不同程度的監管。第一級針對檢測陰性或解除隔離等風險較低人員,僅需早晚量體溫,外出強制戴口罩外,並無其它強制性禁足。其次是曾到過警示國家或區域旅遊,最後一級則是曾和確診病例接觸但暫無症狀者。後兩級都不得外出,需在家禁足十四天且不得搭乘大眾運輸工具,每天會有相關人員主動打電話關懷及追蹤健康狀態,若有症狀出現時則由衛生主管機關安排就醫。若未遵守規定則有相關罰則,最高可達新台幣一百萬元。
為了更積極主動抑制疫情傳播,推動更智慧的檢疫管理就成了重要議題。除了列管人員定時追蹤管理外,如何偵測疑似案例(如發燒、咳嗽、沒帶口罩等)、傳播溯源追蹤、群聚(社交距離)警示及智能語音客服等都是AI最容易實現的場景。而這些不同的情境可能要另外搭配物聯網(Internet of Things, IoT)技術包括感測器(攝影機、麥克風、全球衛星定位系統(GPS)、運動(Motion)、體溫、心率等)、無線通訊(BT, WiFi, LoRa, 4G, Sigfox, NB-IoT等)、雲端計算和儲存等。當然手機也是一項很好的資訊收集及運算裝置,因為它具有所有串接物聯網的硬體及應用程式(APP)執行平台。待各項終端裝置自動定時、定量回報數據、影像及聲音等相關資訊後,最後才能交給AI進行分析、辨識及決策。以下就舉幾個實例來說明,而其它更多應用就留待更多產官學研繼續投入開發行列。
* 居家檢疫及隔離人員定位:可利用藍牙手環加上GPS及電子地圖來確認人員所在位置,當離開管制區域時就發出警報,通知相關人員進行確認。這部份表面上看起來不太需要用到AI技術,但實務上若要以很少的偵測元件同時在很大的區域偵測多名使用者時,此時就需要以AI技術在不穩定及雜亂訊號中來協助精準定位每一名使用者。
* 公共場所發燒人員偵測:當不方便逐一使用額溫槍檢查公共場所群眾時,可利用紅外線熱像儀進行多人同時體溫偵測,但由於易受其它高溫物件(如咖啡)干擾及無法記錄及追蹤可疑人物移動路徑,所以可以另外搭配普通攝影機及AI電腦視覺進行人臉(位置)辨識再判斷溫度來改善誤報的問題。
* 口罩配帶偵測:利用AI電腦視覺「物件偵測」技術來確認是否配帶口罩甚至是否正確配帶。若再加上人臉身份辨識(有帶口罩時)或記錄,則可達到事後溯源追蹤人員接觸史的效能。
* 群聚及社交距離偵測:同樣可利電腦視覺「物件偵測」方式來計算人員(人頭)數量、距離、密度,進而可以達到警示作用。而這項技術也會隨不同高度(天花板、路燈、空拍機等)攝影機取得的影像不同,定義上也會略有不同。另外亦可使用電信業者基地台的通訊連線狀態來偵區域人員數量,當達到某個上限時,就可對該區域發出警示(細胞廣播、簡訊)。當然如果透過AI進行時序預測,那就能提早警示,不用等到超過時再警報。
* 感染溯源追蹤:目前多半採用人工詢問、記錄確診患者的接觸及移動歷史,但有可能由於患者隱瞞、忘記、記錯等問題而錯失疫情防堵時機。若改採用手機GPS或使用電信業信號定位追蹤來分析停留位置、時間軸、移動軌跡,最後再加上多人軌跡疊合比對,就更有機會找出可能傳播路線。
*智能語音客服:語音機器人(ChatBot)是目前AI較成熟的技術,只要建立完整的對話問答表(QA Table)、意圖(Intent)或流程(Flow)分析機制,搭配線上資料庫就能快速建立各項資訊查詢,如口罩數量、即時疫情數據、自動疫情表問答填寫、防疫資訊問答等。未來若自然語言處理(NLP)技術及醫療資料庫達到一定程度,甚至有機會協助醫生作初步問診以減少醫生負擔。
【臨床診斷輔助】
目前臨床診斷是否為COVID-19確診病例主要有「核酸檢測(RT-PCR)」、「抗原檢測」及「血清抗體檢測」,這幾種方式單純為化學方式檢驗和AI較無直接關聯。其中核酸檢測偽陽性機率極低故多為最後確診依據,但其最大缺點為實驗室規格要求較高、數量有限,且完整檢測需耗時四小時,所以難以提高檢測效率。
後來有許多醫生發現早期患者的肺部X光電腦斷層掃描(Computed Tomography, CT)都會出現毛玻璃狀(Ground-Glass Opacity, GGO)現象,因此建議改用此方式來加快診斷速度。一般來說資深醫生透過視覺仔細觀察不同部位病徵差異便能診斷,依熟練程度不同可能耗費五到十五分鐘,但對於新手醫生則可能耗時更久甚至誤判,因此這項工作就非常適合透過AI進行影像辨識來分析病灶所在及程度,以增加判讀正確性及速度,若再搭配較高速的雲端計算能力,則一張CT影像不需30秒就能完成計算,可大幅降低醫生負擔。
目前各國對於確診患者的CT影像基於各種理由(如隱私、國家科研機密等)不一定會公開,對於確診數較少的國家不容易取得訓練樣本,這將非常不利疫情的防堵。因此有許多有心人士將搜集到的CT影像開源出來,希望藉由大家的努力早日建立更有效精準的模型及辨識能力,用以協助醫療資源較為貧乏的地區也能獲得足夠的醫檢能力。以下就列舉幾個CT影像開源資料集。
* 加州大學聖地亞哥分校(UCSD) COVID-19 CT Scan Dataset [13],正例275張,負例195張。
* Kaggle - COVID-19 RADIOGRAPHY DATABASE [14],正例219張,負例1341張。
* 台灣人工智慧實驗室(AI Labs.tw),兩級肺炎及SARS-nCoV-2分類器 [15],共41,453張影像,其中包括非SARS-nCoV-2影像522張及確診89張影像。(登入帳號:guest,密碼:guest)
* 美國國立衛生研究院(NIH)胸部X射線數據集 [16],擁有各種肺疾病15類(Atelectasis, Consolidation, Infiltration, Pneumothorax, Edema, Emphysema, Fibrosis, Effusion, Pneumonia, Pleural_thickening, Cardiomegaly, Nodule Mass, Hernia, 正常)共112,120張影像,雖無COVID-19直接案例,但有像纖維化等相關案例。
* 意大利SIRM COVID-19放射學案例 [17],共70正例,有詳細症狀解說。
Fig. 4 SIRM COVID-19案例編號70之肺部X光斷層掃描圖。(資料來源:[17],OmniXRI整理繪製2020/4/9) |
AI的瓶頸與挑戰
綜合上述分析,雖然AI在很多情境下都能發揮的不錯,但依舊有很多瓶頸和挑戰有待突破。首先是「資料集」搜集數量及標註品質問題,如果在數量不足或標註品質不佳的情況下,AI是很難表現正常的。尤其是像醫療影像在確診患者不足情況下更是難以取得有效樣本,即便取得了也要由資深醫師花很多時間協助標註以確保品質,這樣的人力成本相當地高,不是一般廠商可以獨立完成。
再來是「算法」問題,有些情境可能已有類似資料集可供研究及改善算法,但如果沒有時就只能用很少的資料集進行測試,但不幸地是經常會落入過擬合問題,只能一邊增加有效資料一邊改善。
接著是「算力」問題,一個好的算法常會遇到模型過於巨大,參數數量(可能數千萬到數億個)驚人問題,此時就要面臨需要非常昂貴的高速運算機器或雲端服務幫忙訓練,若結果不佳就要反覆調參找出最佳參數,這樣需耗費相當大量的時間和金錢,非一般廠商可以負擔,需要政府出面協助。目前科技部及國網中心針對此次疫情亦特別在其「資料集平台」建立「COVID-19(新冠疫情特區) [18]」,並推出「御守臺灣・科技抗疫專案 [19]」公開徵求提案,以期減少研發單位負擔。
最後當然還有「領域知識」問題,這個部份就要靠政府單位或計畫(如AI Hub計畫)協助媒合需求端和技術端,以共同快速解決防疫問題。
小結
AI不是萬能,但沒了AI協助很多防疫困境就更不容易突破。在現有艱鉅的疫情下如能好好運用「數據分析」、「電腦視覺」及「自然語言」等AI技術就能讓我們能更從容面對「疫情物資預測」、「防疫藥物開發」、「檢疫智慧管理」及「臨床診斷輔助」等問題,也更有機會「超前部署」一起渡過這場防疫大戰。
*本文同步發行於歐尼克斯實境互動工作室部落格(https://omnixri.blogspot.com)及AI HUB(https://aihub.org.tw),歡迎連結至AI HUB網站─【社群互動】─【AI技術交流區】瀏覽更多精采文章*
參考文獻
[1] 衛服部COVID-19(武漢肺炎)統計網頁 https://sites.google.com/cdc.gov.tw/2019ncov/global
[2] Our World in Data, Coronavirus Disease (COVID-19) – Statistics and Research https://ourworldindata.org/grapher/covid-confirmed-cases-since-100th-case
[3] 政府資料開放平台 https://data.gov.tw/
[4] Wiki – Google Flu Trends https://en.wikipedia.org/wiki/Google_Flu_Trends
[5] An AI Epidemiologist Sent the First Warnings of the Wuhan Virus https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/
[6] 台灣人工智慧實驗室(AI Labs.tw)抗疫平台 https://covirus.cc/
[7] 台灣人工智慧實驗室(AI Labs.tw) 新藥篩選結果 https://github.com/ailabstw/COVID19-taiwan
[8] 台灣人工智慧實驗室(AI Labs.tw) variant2literature https://v2l.taigenomics.com/
[9] Kaggle - COVID-19 Open Research Dataset Challenge https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
[10] Semantic Scholar - COVID-19 Open Research Dataset https://pages.semanticscholar.org/coronavirus-research?fbclid=IwAR03UQxYLm3KcHAbu4Ph4DYUDupiAEouClSQgB_7n204D3KFypjUqjMNnPw
[11] Google Scholar – COVID-19 (2020) https://scholar.google.com/scholar?as_vis=1&q=covid-19&hl=zh-TW&as_sdt=1,5&as_ylo=2020
[12] Graphen - Monitoring COVID-19 http://www.graphen.ai/covid.html
[13] UCSD CT Scan Dataset about COVID-19 https://github.com/UCSD-AI4H/COVID-CT
[14] Kaggle - COVID-19 RADIOGRAPHY DATABASE https://www.kaggle.com/tawsifurrahman/covid19-radiography-database
[15] AI Labs.tw - Two-stage Pneumonia and SARS-CoV-2 Classifier https://covirus.cc/pneumonia/
[16] Kaggle - National Institutes of Health (NIH) Chest X-Ray Dataset https://www.kaggle.com/nih-chest-xrays/data
[17] SIRM COVID-19: CASISTICA RADIOLOGICA ITALIANA https://www.sirm.org/category/senza-categoria/covid-19/
[18] 國研院國網中心資料集平台COVID-19(新冠疫情特區) https://scidm.nchc.org.tw/group/sp-covid-19
[19] 科技部「御守臺灣・科技抗疫專案」https://www.nchc.org.tw/Page?itemid=28&mid=43
沒有留言:
張貼留言