2024年3月21日 星期四

【vMaker Edge AI專欄 #15】 從MWC 2024看AI手機未來發展

 作者:Jack OmniXRI, 2024/3/15

 留言

vMaker_EdgeAI_15_Fig_00

一年一度的世界通訊大會(MWC 2024)[1]於2/26到2/29在西班牙巴塞隆納盛大舉行,以往重點都是在酷炫的行動通訊裝置,而此次重點則都落在AI上,尤其是不靠連網、本機可獨立運算的生成式應用。

2022年底OpenAI推出ChatGPT後,一時風起雲湧,每週都有新的驚喜,各種大語言模型(LLM)及生成式AI(GenAI / AIGC)應用層出不窮,讓文字可以生成文章、音樂、影像、影片甚至可以使用多模態(Multimodal)模型讓文字影音可以相互感知和生成。LLM剛開始時,使用的模型參數量都非常巨大,可高達1750億(簡寫成175B)個參數,隨著各種專家學者的努力,在特定用途、推論能力和精度略減時,可將參量縮減至330億(33B), 130億(13B), 70億(7B)甚至13億(1.3B),若加上模型量化技術,就能讓模型儲存空間縮減到原先1/4(INT8)至1/8(INT4)。此時剛好高算力、大記憶體容量手機誕生,滿足運行最低門檻,於是AI手機就變成此次 MWC 2024 的新寵兒。

為了讓大家更理解AI手機究竟有哪些方案供應商,硬體上究竟有哪些重大突破及軟體上到底能玩什麼應用,接下來就一一幫大家介紹一下。

1. AI手機方案供應商

此次AI手機晶片供應商主要由兩大家包辦,包括聯發科和高通,相關技術規格如下所示。其中AI計算引擎(APU/NPU)的性能提升是主要促成單機離線AI應用的重要關鍵,解決了以往單靠CPU或DSP計算能力有限的問題。

  • 聯發科(MediaTek) 天磯(Dimemsity) 9300 [2]
    • Cortex-X4(3.25GHz) 4核 + Cortex-A720(2.0GHz) 4核
    • 支援 LPDDR5T 9600Mbps, UFS 4.0 Flash
    • 第 7 代 APU 790 架構內建硬體級的生成式 AI 引擎
    • 最高可支援330億(33B)參數的 AI 大語言模型
    • 支援 NeuroPilot Compression 內存硬體壓縮技術
    • 首款生成式 AI 端側技能擴充 (LoRA Fusion) 技術
  • 高通(Qualcomm) 驍龍(Snapdragon) 8 Gen 3 [3]
    • Cortex-X4(3.3GHz) 1核 + Cortex-A720(3.2GHz & 3.0GHz) 5核 + Cortex-A520(2.3GHz) 2核
    • Hexagon NPU, 可支援100億(10B+)參數,INT4/INT8/INT16/FP16數值格式,在 Llama 2 LLM 推論速度20 tokens/sec
    • 可支援 Hugging Face 超過20款主流AI模型

以下列出目前有支援這些晶片的手機製造商、機種名稱、動態記憶體(DRAM)及快閃記憶體(FLASH)容量。

  • 聯發科 天磯(Dimemsity) 9300 [2]

    • 廣東移動(OPPO) FIND X7(12G+256G)[4]
    • 維沃移動(VIVO) X100(12G+256G)[5]
    • 維沃移動(VIVO) iQOO Neo9 Pro(12G+256G)[6]
    • 小米(Xiaomi) Redmi K70 Ultra(預計2024/8上市,規格不明)
  • 高通 驍龍(Snapdragon) 8 Gen 3 [3]

    • 華碩(Asus) ROG Phone 8(16G+512G)[7]
    • 榮耀(Honor) Magic6 Pro(12G+256G)[8]
    • 廣東移動(OPPO) FIND X7 Ultra(12G+256G)[9]
    • 三星(Samsung) S24+(12G+256G)[10] / S24 Ultra(12G+256G)[11]
    • 小米(Xiaomi) 14(8G+256G)[12] / 14 Ultra(12G+256G)[13]

註:各家手機隨價格不同,會配置更大容量的動態及快閃記憶體,這裡僅列出最低配置。

vMaker_EdgeAI_15_Fig_01
Fig. 1 MWC 2024 AI手機及晶片供應商。(OmniXRI整理製作,2024/03/15)

2. AI手機運行模型限制及擴充

從上述AI手機硬體規格來看,動態記憶體(DDR)是決定可以運行多大模型的關鍵。扣除手機作業系統及常用APP使用量,其餘的才是模型運行時可支配的容量。以較常見的7B模型來看,若參數以8位元整數(INT8)來表示,在模型不使用剪枝、權重共享等優化手段且一次讀入完整模型情況下,則至少要動用7GByte的動態記憶體。這對手機負擔頗重,所以通常會將模型參數量化成4位元整數(INT4),讓動態記憶體需求量馬上降到1/2。當然,如果再搭配分段讀入甚至模型優化等手段,這樣動態記憶體的使用量就能變得更低。這裡建議將來有想購買AI手機的人,由於動態記憶體無法擴充,所以要選購容量大一點的,才能容許功能更強大、參數更多的模型運行。

一般手機配置的快閃記憶體(Flash)容量通常都很大,不夠用時也能很輕易加上外掛的記憶卡,所以可以用來存放很多不同用途的AI模型,就像手機端上不同的APP一樣。未來除了晶片廠、手機商外,相信會有更多第三方開發出更多應用,這樣手機就能變得更聰明了。

由於現有AI手機不像桌機、筆電有豐富的硬體資源可用,所以可使用的模型還是較受限的。各手機商為了確保AI模型能順利工作及免除使用者不知如何選用及安裝,出貨時多半已直接內建多種常用的模型。如果使用者還想擴充AI功能,亦可從晶片或手機商提供的管道下載模型。

以下就以高通 AI Hub [14] 為例,列出目前已提供的模型清單給大家參考,更完整的內容可自行查閱參考連結。

  • 高通(Qualcomm) AI HUB [14]
    • 聲音類:
      • 聲音增強 - Facebook-Denoiser
      • 語音辨識 - HuggingFace-WaveLM-Base-Plus, Whisper-Base
    • 電腦視覺類:
      • 影像分類 - ConvNext-Tiny, DenseNet-121, EfficientNet-B0, CoogLeNet, Inception-v3, MNASNet05, MobileNet-v2/v3/v3-Small, RegNet, ResNet18/50/101, ResNeXt50/101, Sufflenet-v2, SqueezeNet-1_1, Swin-Base/Small/Tiny, VIT, WideResNet50
      • 影像編輯 - LaMa-Dilated
      • 影像生成 - StyleGAN2
      • 物件偵測 - DETR-ResNet50/ResNet50-DC5/ResNet101/ResNet101-DC50, MediaPipe-Face-Detection/Hand-Detection, Yolo-v6/v7/v8-Detection
      • 姿態估測 - HRNetPose, LiteHRNet, MediaPipe-Pose-Estimation, OpenPose
      • 語義分割 - DDRNet23-Slim, DeepLabV3-ResNet50, FaseSam-S/X, FCN_ResNet, FFNet-40S/50S/78S/78S-LowRes/122NS-LowRes, MediaPipe-Selfie-Segmentation, Segment-Anything-Model, SlNet, Unet-Segmentation, YOLOv8-Segmentation
      • 超解析度 - ESRGAN, QuickSRNetLarge/Medium/Small, Real-ESRGAN-Grenral-x4v3/x4plus, SESR-M5, XLSR
    • 生成式AI類:
      • 影像生成 - ControlNet, Stable-Diffusion
      • 文字生成 - Baichuan-7B, Llama-v2-7B-Chat
    • 多模態類:
      • 影像分類 - OpenAI-Clip
      • 影像生成文字 - TrOCR

註:這裡提及的「影像生成」,在電腦視覺類是指 GAN 技術,而生成式類則是指 Diffusion 技術。

vMaker_EdgeAI_15_Fig_02
Fig. 2 高通 AI Hub 主要模型庫。(OmniXRI整理製作,2024/03/15)

3. AI手機主要生成式應用

目前AI手機主要可完成的生成式應用,主要集中在文字、語音及影像之間的互相生成,以下就分別對各家展示的內容作一簡單整理和說明。

  • 文字生成文字: 以自然語言方式輸入文字,可作為查詢、翻譯、長文摘要、詩詞故事創作、聊天等,並直接輸出如真人對話文字。
  • 文字生成語音: 可像播音員一樣將文字稿完美讀出,可依需求調整性別、語速、語調、節奏、口音等。搭配文字生成文字即可變身個人貼身助理。
  • 文字生成影像/影片: 可直接以文字描述所需內容,即可生成靜態影像或數十秒動態短影片,增加使用者在社交媒體的互動性。
  • 語音生成文字: 可將口語或無字幕外語影片即時進行翻譯或會議聽打記錄,方便溝通及學習。若再搭配文字生成文字的自動摘要功能就能更方便整理資料。
  • 影像生成文字: 可用於產生影像標題或說明,如取得一張不知名地標影像,可即時產生說明文字。亦可直接辨識影像中的文字內容並直接輸出,即傳統OCR功能。
  • 影像生成影像/影片:
    • 虛擬頭像:拍一張個人大頭照,選定不同風格後,即時生成不同風格大頭照,如專業形象照、動漫風甚至不同性別。相較傳統簡單美顏或加特效有更多的樂趣。
    • 去背補漏:到戶外旅遊拍照最怕後面有路人,還要事後P圖才能分享給別人,此時就能透過AI生成技術將路人去掉並自動補上合理的背景。或者拍歪了,旋轉圖像後造成四個角落空白,亦能自動補上。
    • 虛擬試穿:拍一張個人影像,選定要試穿的衣服影像後,即時生成個人試穿新衣的結果,甚至可以產生擺弄姿勢的短影片,就像本人在試穿一樣。

vMaker_EdgeAI_15_Fig_03
Fig. 3 AI手機常見生成式AI應用。(OmniXRI整理製作,2024/03/15) [15]

小結

現階段AI手機仍在起步階段,各種高性能的手機會陸續推出,各種大型AI模型仍在不斷地努力瘦身想辦法擠進有限的硬體資源中,各種有趣的應用也在不停地被開發,相信不久後就會像智慧型手機剛出現時APP大爆發一樣,也會有各種AI應用被APP化。未來甚至手機不需要有實際的操作介面,就像電影鋼鐵人中的Jarvis虛擬助理一樣,所有事只要動動嘴就能完成一切,就讓我們期待這一天早日到來!

參考文獻

[1] MWC BARCELONA
https://www.mwcbarcelona.com/

[2] 聯發科技,天璣9300
https://www.mediatek.tw/products/smartphones-2/mediatek-dimensity-9300

[3] Qualcomm, Snapdragon 8 Gen 3 Mobile Platform
https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-gen-3-mobile-platform

[4] OPPO, Find X7 技術規格
https://www.oppo.com/cn/smartphones/series-find-x/find-x7/specs/

[5] VIVO, X100 技術規格
https://www.vivo.com/tw/products/param/x100

[6] VIVO, iQOO Neo 9 PRO 技術規格
https://shop.vivo.com.cn/product/10009292

[7] 華碩, ROG Phone 8 技術規格
https://rog.asus.com/tw/phones/rog-phone-8/spec/

[8] 榮耀, Magic6 Pro 技術規格
https://www.hihonor.com/cn/phones/honor-magic6-pro/spec/

[9] OPPO, Find X7 Ultra 技術規格
https://www.oppo.com/cn/smartphones/series-find-x/find-x7-ultra/specs/

[10] 三星, S24+ 技術規格
https://www.samsung.com/tw/smartphones/galaxy-s24/specs/

[11] 三星, S24 Ultra 技術規格
https://www.samsung.com/tw/smartphones/galaxy-s24-ultra/specs/

[12] 小米, 14 技術規格
https://www.mi.com/xiaomi-14/specs

[13] 小米, 14 Ultra 技術規格
https://www.mi.com/xiaomi-14-pro

[14] Qualcomm, AI Hub Models
https://aihub.qualcomm.com/models

[15] MediaTek at MWC 2024 - Generative AI
https://www.mediatek.com/blog/mediatek-at-mwc-2024-generative-ai
https://youtu.be/dlZMedOHQ60

本文同步發表在【台灣自造者 vMaker】

 

 

 

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! Edge AI Taiwan 邊緣智能交流區 全像顯示與互動交流區 台科大(NTUST) 人工智慧與邊緣運算實務 開南大學...