歐尼克斯實境互動工作室(OmniXRI): Avatar

2025年4月1日星期二

輕鬆用 Intel AI PC 及 OpenVINO 建立數位分身

作者： Jack OmniXRI 2025/3/24

20250324_Digital_Avatar_00

隨著生成式人工智慧(Generative Artificial Intelligence, GenAI)技術的日益普及，數位分身(Digital Avatar)或稱數字人(Digital Human)也開始出現在很多智慧客服及人機互動應用上，讓使用者再也不用面對冷冰冰的機器進行操作。一個完整的數位分身，就像真人一樣，要具有自然語言對話、豐富肢體動作和產生生動表情的能力，其中就需要用到許多生成式AI技術，包括利用語音轉文字(Speech to Text, STT)得到問題的文字，交給大語言模型(Large Language Model, LLM)進行文字問答，再將文字轉語音(Text to Speech, TTS)把答案讀出，最後再配合語音自動對嘴形(Lip Sync)讓人物影像的嘴巴也能和語音同步動起來。

去（2024）年底曾寫過一篇文章「如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播」[1]，介紹了數位分身所需擁有的文字轉語音和聲音自動嘴型功能，算是實現了數位分身的後半段「自動讀稿機」的能力。此次就來幫大家介紹前半段，使用麥克風收音進行問話，然後再使用大語言模型來思考及產生問答結果，如此就能搞定數位分身的前半段，構成一個簡單完整的系統。

2024年12月21日星期六

如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播

作者： Jack OmniXRI 2024/12/12
20241212_Digital_Human_Fig00

2022年底 OpenAI 引爆大語言模型（Large Lauguage Model, LLM）及生成式人工智慧（Generative Artificial Intelligence, GenAI），從此有各種文字、聲音、影像及多模態的應用，其中「虛擬主播」就是很常的應用例，如像民視的「敏熙」就是很經典的案例。

說到虛擬主播，其演進歷史也有數十年，早年需由美工人員大費周章設計好 3D 人物模型，再請配音員配上固定對白，最後由動畫人員把肢體動作、對白和嘴形對好，才能完成影片輸出，常見於高階 3D 電玩中較精緻的非玩家角色(Non-Player Character, NPC)。

後來隨著傳統電腦視覺及 3D 動畫技術演進，慢慢開始有了虛擬代理人(Virtual Agent)VTuber (Video + Youtuber)出現，只要事先準備好可愛的 3D 人物模型（公仔），加上高階動作補捉器(Motion Capture)，再請真人表演肢體及臉部動作來驅動 3D 公仔，這樣可大幅減少美工及動畫人員的工作。早期電腦性能較差只能採預錄加上後處理合成方式處理，像日本「初音未來」這類「虛擬偶像」及擬真 3D 電影「阿凡達」就是知名代表。

後來隨電腦性能及電腦視覺技術成熟，只需使用一般網路攝影機，就能即時偵測到表演者的動作、表情並驅動 3D 公仔，一般會稱呼表演者為 VTuber(Video Youtuber)，像日本知名「絆愛」、台灣 Yahoo TV 的「虎妮」就屬此類。這樣的技術很適合哪些不露臉的表演者和真實世界的互動，但缺點也是沒有真人就無法操作了，且真人表演不流暢也會影響虛擬人物表現。

十多年前深度學習電腦視覺及自然語言處理(Natual Language Processing, NLP)技術興起，讓電腦有機會能完全控制 3D 公仔的肢體動作、語音轉文字（Speech To Text, STT）、自然語言理解（Natual Language Understanding, NLU）、對話內容產生、語音轉文字(Text To Speech, TTS)，於是開始有了虛擬助理(Vitrual Assistant)和虛擬代理人(Virtual Agent)出現。而隨著大語言模型及生成式技術越來越成熟，像真人一樣互動的數位分身（大陸慣稱數字人）(Digital Human, Meta Human)也開始出現在各種場域中，如捷運站的虛擬客服。

20241212_Digital_Human_Fig01
Fig. 1 虛擬分身演進，3D人物、人臉建模，動作、表情補捉、真人驅動VTuber，大語言模型及生成式AI客服、主播。(OmniXRI整理製作, 2024/12/12)

為了使大家能更進一步理解如何實作一個簡單離線版（邊緣端）的虛擬主播，可以輸入所需文字，產生對應語音，配合閉嘴人物影片生成新的對嘴影片。接下來就分別從「推論硬體及環境建置介紹」、「MeloTTS 文字轉語音生成」、「Wav2Lip 自動對嘴影片生成」及「建置完整虛擬主播」等四大部份作更進一步說明。

完整範例程式可參考下列網址。
（註：本文範例不適用 Google Colab 執行，僅限 Intel OpenVINO Notebooks 虛擬環境下使用）
https://github.com/OmniXRI/digital_human

歐尼克斯實境互動工作室(OmniXRI)

2025年4月1日星期二

輕鬆用 Intel AI PC 及 OpenVINO 建立數位分身

2024年12月21日星期六

如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播

【頂置】簡報、源碼、系列文快速連結區

標籤

2025年4月1日 星期二

輕鬆用 Intel AI PC 及 OpenVINO 建立數位分身

2024年12月21日 星期六

如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播

【頂置】簡報、源碼、系列文快速連結區

2025年4月1日星期二

2024年12月21日星期六