2018年3月23日 星期五

穿戴式顯示及互動專利分析

2012年Google Glasses造成一股AR眼鏡旋風,大家都希望從此可以過著如科幻電影般的隨心所欲獲取及處理數位資訊,可惜地是當年很多條件都不成熟,所以這項產品不到兩年就消失於市場。後來2015年微軟推出Hololens時重新以MR(Mixed Reality)商業術語(其實就是Strong Augmented Reality)包裝,同時兼具AR/VR效果,加上強力的3D掃描及手勢互動,的確又吸引了一波市場熱潮,但可惜的是單價太高(US$3000~5000)難以全面普及化。去年及今年隨著AI語音、影像辨識及3D感測器(光學)技術的成熟,加上市場謠言不斷APPLE即將推出AR眼鏡,因此可想見未來一、兩年內穿戴式顯示及互動技術又會變成顯學。

小弟2015年曾參加全國專利分析比賽並得了一個小獎,題目正是這個題材,當時光了二、三個月整理了一千多篇專利,並根據期望目標的限制收歛到69篇,最後再仔細閱讀後整理得到一些脈胳。雖然這份資料舊了些,但對有心入門了解的人可免去寶貴時間分析,藉由整理好的專利編號就可以順藤摸瓜,是很好的起頭。

2018年3月15日 星期四

AI智能虛擬助理介紹Gatebox/HoloBox/MxR Tube



2016年初日本廠商推出一台看似咖啡壺的AI虛擬助理原型機稱為Gatebox (Fig. 1a),這台機器可厲害了,浮空投影出一個3D動漫美少女管家,她不但會露出可愛的笑容問候你,眼神動作還會跟著你移動,最擅長唱歌跳舞,並且有像Siri的語音助理功能可以查詢天氣、控制家電等,還可以用手機APP和她連線,就像身邊多了一個貼心的女友,把你照顧的無微不至。2016年底開始接受預訂共300台,一台要價近三十萬日圓還是一掃而空。2017年底開始出貨,20183月再追加39台日本最紅的3D虛擬偶像「初音」版本。

受到Gatebox的刺激,台灣某大廠也曾找上我想開發此類產品,因為我的專長剛好包括此類相關機電光技術,但我只有簡單指導他們並無實際投入,不過至今仍未看到產品上市,我想這個案子大概胎死腹中了吧?

(2018)WMC中有兩家廠商不約而同推出了類似的產品的原型機,看來未來AI虛擬助理可能又會變成另一個戰場。首先幫大家介紹的是由韓國電信商SK Telecom 和技術團隊Reality Reflections共同打造的HoloBox和虛擬助理Wendy (Fig. 1b)。他們主打的功能除一般語音助理可以作到的功能外,另外虛擬助理還可提供一百多種表情還可辨識常用手勢用於控制系統。而其中的虛擬助理則是經由多達一百六十多台攝影機拍攝及數週時間的處理才得以產生的。
而另一家由英美韓組成的團隊DoubleMe則是推出了MxR Tube (Fig. 1c)。他們主要技術是直接快速360度全方位掃描人的動作(如跳舞、踢球等),經由內投影技術即可顯示3D真人動作,搭配簡單手勢操作就可旋轉觀賞視角,非常適合用於記錄特殊情境(如結婚、表演等)

Fig. 1 AI虛擬助理,(a) Gatebox[1](b) SK Telecom HoloBox[2](c)DoubleMe MxR Tube[3]

2018年3月2日 星期五

超黑科技_光場攝影及顯示技術發展趨勢

雖然現在的小朋友可能已經不太認識「遊戲王」這個知名動漫,但當年我卻被它那個虛擬怪獸實像化的戰鬥場景深深吸引,甚至為此重新回到學校花了許多時間研究如何實現這項技術,包括多視角取像、三維重建、裸視立體顯示及360度全像成像技術。經過數年努力雖然有一些小小成果,但最終還是得向現實(物理極限及開發經費)低頭,心中總想著難道科幻電影「星際大戰」中全息(全像術)投影的莉亞公主、「鋼鐵人」中的浮空顯示及人機互動、「阿凡達」中的戰鬥沙盤在我有生之年都沒機會看到它們真正被實現了嗎?正當心灰意之際,好友傳來的一份資訊讓我眼睛一亮,原來這項超黑科技竟然在美國國防部高等研究計畫署(DARPA)的支持下(不知花了多少錢??),已成功被FOVI3D這家公司商品化了,稱為「光場顯示器(Light Field Display, LfD)」,甚至可以稱為真正的全像顯示器(Holographic Display)(大陸稱為全息顯示器),而FOVI3D正是知名全像術照片製作公司Zebra Imaging 2015年所收購的子公司。

超黑科技_光場攝影及顯示技術發展趨勢_Part 1_何謂光場_如何取得及還原光場?

何謂光場?


「光場」(Light Field)一個聽起來很神奇名詞,它到底是啥?簡單來說,當你拿起手上的相機想要拍下真實世界的一顆蘋果時,當按下快門的瞬間,你就已經取得一幅光場資訊(各個角度的光射線累積而成的照片),換句話說,你有兩個眼睛就等於瞬間可接收到兩個光場資訊。再放大一點來看,如果有顆蘋果週圍有一百個人從各個角度同時都拍下一張照片時,你會發覺每個人拍到的蘋果都長的不一樣,可能包括位置、光影、色彩、紋理、背景、遮蔽等都有些許不同。或許你會說一百張已經很多,應該足夠表達一顆蘋果的全貌,但很不幸的是真實世界光線來自四面八方,等於說真實世界是由無限多個光場所組合出來的,一百張根本微不足道,難以完全表達真實世界那顆蘋果的樣貌。

我相信你馬上會問,那到底要多少個光場才夠呢?首先我們要先了解眼睛如何看這個世界,每個人都有兩個眼睛(不含二郎神楊戩和獨眼海盗船長),每個眼睛都有六條肌肉在控制轉動方向及水晶體的厚薄(焦距)控制,所以每個瞬間我們都會看到不同的影像。如Fig. 2a所示,假設場景中有三個蘋果分別在遠、中及近處,此時左眼及右眼會看到不同影像(二組光場),經過大腦計算就能得知物體深度,這就是3D立體視覺的基本原理。若再令視線分別交會(聚焦)在遠、中及近處,如Fig. 2b所示,則視線聚匯點的蘋果會清晰呈現而其它距離的蘋果就變得模糊不清。換句話說,眼睛等於接收到三組光場資訊。再更進一步看來,當眼睛一直不停轉動及聚焦在不同平面,或者觀賞者的位置一直在移動,大家可以想像一下需要多少組光場資訊才以足以表達這個真實場景。

科學家們為了方便用數學來表達光場(Light Field)的概念,通常會以下列公式表示。L = P (Θ, φ, λ, Vx, Vy, Vz, t),這裡的P指的就是Plenoptic,又稱為全光函數,共有七維。如Fig. 2c所示,(Vx, Vy, Vz)指的眼睛和蘋果在空間中距離(向量),而(Θ, φ)指的是某一條光的射線(Ray)以球座標方式表示的方向及角度,而λ指的是光的波長(這裡隱含光的能量,也就是亮度),通俗說法就是顏色,最後t是時間,用來說明物體在不同時間運動導致我們看到不同的結果。這裡要補充說明的是環境光會來自無限多個方向,所產生的(反)射線也會有無限多條,但在某個瞬間進到眼睛的射線可能只有極少數量,且看到的色彩也會經由這些射線混合後得到一特定顏色(波長),如同拍照後只能得到一張平面照片(三維資訊,x, y, λ)。


Fig. 2 (a) 雙眼視覺與光場關係 [a],(b)雙眼視線交會與影像清晰度 [a],(c)光場(全光函數)示意圖 [a]

超黑科技_光場攝影及顯示技術發展趨勢_Part 2_光場攝影機的發展歷程

光場攝影機的發展歷程


從上面介紹可得知,用很多張影像組合在一起,再一起播放出來就可以令人看到如真實世界的影像效果。那常見的360度攝影機(背對背雙魚眼鏡頭或是多鏡頭圓形放射狀排列)也是把很多張影像拼在一起,當你戴上VR頭戴式顯示器,播放這張合成後的影像,當轉動頭(視角)時也可看到不同方向的內容,這也是屬於光場攝影及顯示的一種嗎?答案可能會讓你有點失望,其實它只有一個光場,因為它把多個鏡頭的影像先拼接成一張超大影像,再貼在一個球面或半球面上,所以你看到全景影像時總覺得假假的,因為它已經把真實世界壓扁了,就像拍了一張照片,把深度及視差都去除了。從上面提到的全光函數來解釋,七維參數只剩三維資訊(Θ, φ, λ)(動態影像包含t為四維),而深度資訊(Vx, Vy, Vz)就消失了。有些廠商為了令使用者觀看有立體感,可能會以兩組球面(或半球面)影像分別提供給左、右眼,充其量也只有兩組光場資訊,所以這類360度攝影機通常不會被歸類在「光場攝影機」。那怎樣才算是光場攝影機呢?常見方式有三大類,攝影機陣列、遮罩式(孔洞陣列或編碼遮罩)及微透鏡陣列。

攝影機陣列式光場攝影機


首先介紹攝影機陣列式光場攝影機,這種方式須使用到大量攝影機,並且要讓相鄰攝影機拍到的內容有大面積的重疊,這樣才能取得更多角度的光場資訊。攝影機排列方式可以是一維線形(直線、弧線、圓形)(Fig. 5a)、二維平面(矩陣)(Fig. 5b, 5c, 5d)甚至是三維立體(球面、半球面)(Fig. 5e, 5f)。

Fig. 5 光場攝影機,(a)Breeze Systems [2],(b)Standford (2004) [3], (c)Pelican (2006) [4],(d)Adobe (2007) [5],(e)EPFL Panoptic (2009) [5],(f)Light Stage(2002) [6]

超黑科技_光場攝影及顯示技術發展趨勢_Part 3_光場顯示器的原理

光場顯示器的原理


光場資訊除了可直接從真實世界中取得外,亦可由電腦圖學(Computer Graphic)方式直接產生所需影像(光場資訊),其中的好處就是可以產生任意數量的鏡頭,取得任意視角的影像,不會受限真實攝影機尺寸及安裝空間的限制,更重要的是不必花費大量金錢去建置相關取像設備及頭痛各個攝影機鏡頭失真及安裝角度校正的問題。但缺點則是計算超級龐大,難以做到即時顯示或動態影像。常見的光場顯示器大致分為五大類,高速旋轉式(High Speed Spin)、多投影機式(Multi-Projector)、指向性背光式(Directional Backlight)、多層顯示器式(Multi Layer Display)及透鏡陣列式(Lens Array)。

高速旋轉式光場顯示器


南加大ICT實驗室於2004年發表了一種以超高速(DLP)投影機(>5000fps)投影在高速旋轉的斜置鏡面上的光場顯示器(Fig. 9a),讓人們不用戴上3D眼鏡就能觀賞到如同實物的立體影像,且每個水平視角見到的內容都不一樣,其主要原理就是把每個角度的影像依序順快速播放。因為人眼約有1/10秒的視覺暫留,所以當顯示內容出現的時間低於1/10秒且快速更新時,我們看到的影像就會變成連續(固定)顯示而非閃動狀況。一般常見的平面顯示器通常1秒會更新30~60次,而這個顯示器每轉1.25度就更新一個畫面(光場資訊),每秒轉20圈,相當於每秒投影5760(360/1.25x20)幅影像(FPS),但由於顯示資料量過大,所以只能以單色顯示且只有考慮水平方向光場,而未考慮垂直方向,意思就是由高處向下看和從低處向上看結果是相同的,換言之這是一台可顯示288 (360/1.25) 組光場且只有亮度沒有色彩的光場顯示器。

SONY在Siggraph 2010時提出一項新技術,利用全彩發光二極體(LED)高速旋轉,產生同樣令人驚豔的360度裸視立體成像效果(Fig. 9b左圖)。根據SONY揭露的專利文件[12]來看,其主要原理一樣是視覺暫留,只是改由LED直接排成內凹曲面(Fig. 9b中圖),配合一具有狹縫的外罩進行高速旋轉,每秒30轉,每2 度產生一個對應視角影像,當相於有180組光場,單張影像解析度不高僅有96 x 120點(全彩)。如Fig. 9b右圖所示,狹縫可限制觀賞者的視角,同時確保光場顯示資料的方向性(角度)。同樣地,該顯示器僅考慮水平方向光場,而未考慮垂直方向光場。

Fig. 9 高速旋轉式(360度)光場顯示器,(a)USC ICT Lab (2007) [10],(b) SONY RayModeler (2010) [11] [12]

超黑科技_光場攝影及顯示技術發展趨勢_Part 4_FOVI3D全像光場顯示器及應用情境

FOVI3D全像光場顯示器


前面花了十來頁近九千字的篇幅來介紹各種光場取像及顯示基本知識,就是為了能讓大家更了解接下來要介紹的FOVI3D所應用到的技術,並且體會為何我會稱它為超黑科技,甚至會稱它為真的「全像(光場)顯示器」(Holographic Light Filed Display)(大陸用語稱為全息顯示器),而不是隨便拿片半透鏡玻璃板反射一個影像浮在半空中就說這是全像(全息)顯示器。

首先介紹一下FOVI3D這家公司,它的母公司Zebra Imaging是製作雷射全像照片的知名廠商,平常我們信用或金融卡上常見的雷射防偽標籤就屬於此類。Zebra Imaging主要提供實景或3D建模場景空拍照的雷射全像照片,觀賞其成品時彷彿搭著直昇機盤旋在天空,不管從那個視角看都可看到對應影像,但這樣的效果只限於靜態照片。後來美國軍方大力支持這項技術,希望作戰時能即時看到動態全像(Dynamic Holographic)效果,方便指揮官快速下達決策。於是Zebra Imaging就於2006年開始這項計畫,耗時五年經過四個階段的改良,產品從最初有如一間房間那麼大,終於縮到一個桌面大小,方便作戰時可隨意移動,如Fig. 16a所示。而這項系統主要包含了一套遠端主機,負責接受外部作戰資訊(如地形、戰車、船艦、士兵等),接著將資訊傳到顯示器端負責計算全像像素的模組中,經過多個模組合力計算後,再將全像像素(Hogel)影像透過空間光線調變器(Spatial light modulator, SLM)陣列及微透鏡將包含數十萬個光場顯示出來,如此即可讓圍觀在顯示器旁的人不必配戴任何特殊立體眼鏡,即可看到宛如上帝視角般的超真實影像,如Fig. 16b所示。2015年為擴大研發能量,正式收購奧斯汀研發公司(Austin R&D firm, FoVI 3D),並繼續保有FOVI3D這項品牌。

Fig. 16 Zebra Imaging / FOVI3D產品,(a)實機使用示意圖 [28],(b)系統架構圖 [28]

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! Edge AI Taiwan 邊緣智能交流區 全像顯示與互動交流區 台科大(NTUST) 人工智慧與邊緣運算實務 開南大學...