歐尼克斯實境互動工作室(OmniXRI)

OmniXRI (Omni-eXtened Reality Interaction) 歐尼克斯實境互動工作室是一個全方位電腦視覺、實境互動、邊緣計算及人工智慧技術的愛好者及分享者，歡迎大家不吝留言指教多多交流。這裡的文章大部份是個人原創，如有引用到他人內容都會註明，若不慎疏漏侵犯到，煩請儘快通知，我們會儘速處理。當然這裡的資料也歡迎引用及推廣，煩請註明出處(網頁網址)，謝謝!

2024年12月21日星期六

如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播

作者： Jack OmniXRI 2024/12/12
20241212_Digital_Human_Fig00

2022年底 OpenAI 引爆大語言模型（Large Lauguage Model, LLM）及生成式人工智慧（Generative Artificial Intelligence, GenAI），從此有各種文字、聲音、影像及多模態的應用，其中「虛擬主播」就是很常的應用例，如像民視的「敏熙」就是很經典的案例。

說到虛擬主播，其演進歷史也有數十年，早年需由美工人員大費周章設計好 3D 人物模型，再請配音員配上固定對白，最後由動畫人員把肢體動作、對白和嘴形對好，才能完成影片輸出，常見於高階 3D 電玩中較精緻的非玩家角色(Non-Player Character, NPC)。

後來隨著傳統電腦視覺及 3D 動畫技術演進，慢慢開始有了虛擬代理人(Virtual Agent)VTuber (Video + Youtuber)出現，只要事先準備好可愛的 3D 人物模型（公仔），加上高階動作補捉器(Motion Capture)，再請真人表演肢體及臉部動作來驅動 3D 公仔，這樣可大幅減少美工及動畫人員的工作。早期電腦性能較差只能採預錄加上後處理合成方式處理，像日本「初音未來」這類「虛擬偶像」及擬真 3D 電影「阿凡達」就是知名代表。

後來隨電腦性能及電腦視覺技術成熟，只需使用一般網路攝影機，就能即時偵測到表演者的動作、表情並驅動 3D 公仔，一般會稱呼表演者為 VTuber(Video Youtuber)，像日本知名「絆愛」、台灣 Yahoo TV 的「虎妮」就屬此類。這樣的技術很適合哪些不露臉的表演者和真實世界的互動，但缺點也是沒有真人就無法操作了，且真人表演不流暢也會影響虛擬人物表現。

十多年前深度學習電腦視覺及自然語言處理(Natual Language Processing, NLP)技術興起，讓電腦有機會能完全控制 3D 公仔的肢體動作、語音轉文字（Speech To Text, STT）、自然語言理解（Natual Language Understanding, NLU）、對話內容產生、語音轉文字(Text To Speech, TTS)，於是開始有了虛擬助理(Vitrual Assistant)和虛擬代理人(Virtual Agent)出現。而隨著大語言模型及生成式技術越來越成熟，像真人一樣互動的數位分身（大陸慣稱數字人）(Digital Human, Meta Human)也開始出現在各種場域中，如捷運站的虛擬客服。

20241212_Digital_Human_Fig01
Fig. 1 虛擬分身演進，3D人物、人臉建模，動作、表情補捉、真人驅動VTuber，大語言模型及生成式AI客服、主播。(OmniXRI整理製作, 2024/12/12)

為了使大家能更進一步理解如何實作一個簡單離線版（邊緣端）的虛擬主播，可以輸入所需文字，產生對應語音，配合閉嘴人物影片生成新的對嘴影片。接下來就分別從「推論硬體及環境建置介紹」、「MeloTTS 文字轉語音生成」、「Wav2Lip 自動對嘴影片生成」及「建置完整虛擬主播」等四大部份作更進一步說明。

完整範例程式可參考下列網址。
（註：本文範例不適用 Google Colab 執行，僅限 Intel OpenVINO Notebooks 虛擬環境下使用）
https://github.com/OmniXRI/digital_human

2024年12月18日星期三

【vMaker Edge AI專欄】 2024 合輯

作者：Jack OmniXRI, 2024/12/18

感謝大家一年來的支持，為方便大家查找，這裡幫大家把 2024 年發表過的 12 期清單整理如下，如果還沒看過的朋友也可順便了解一下，看過的朋友也可回味一下，希望大家都能有所收獲。

vMaker_EdgeAI_2024合輯

延伸閱讀：

[A] 許哲豪，vMaker Edge AI專欄 2023合輯
https://omnixri.blogspot.com/2023/12/vmaker-edge-ai-2023.html

本文同步發表在【台灣自造者 vMaker】

2024年12月8日星期日

【vMaker Edge AI專欄 #24】如何使用 Gradio 快速搭建人工智慧應用圖形化人機介面

作者：Jack OmniXRI, 2024/12/15

vMaker_EdgeAI_24_Fig00

相信很多朋友都是使用 Python 及 Jupyter Notebook 環境在開發人工智慧應用程式，不論是影像辨識、分類，還是大語言模型、影音生成應用。當只能使用命令列(Command Line)模式操作而沒有圖形化人機介面(Gaphical User Interface, GUI)，那麼使用上就會變得非常不直覺且不方便。

傳統上要開發 Python GUI 大概會想到使用 Tkinter, PySide, PyQT 等工具，但這些工具比較適合開發桌機或手機版的應用，並不容易和 Jupyter Notebook 這類網頁版程式整合，包含 Google Colab, Intel OpenVINO Notebooks, Hugging Face 等。所以這裡要幫大家介紹另一項常見的 GUI 開源工具「Gradio」。[1]

Gradio 提供了很便捷的網頁型式的各種輸入和輸出模組，如下所示。[2]

應用介面：Interface(簡單應用)、Blocks（客製化應用）
輸出輸入：文字框(Textbox)、資料框（DataFrame）、影像(Image)、下拉盒(Dropdown)、數字(Number)、文字說明（Markdown）、檔案(File)
控制元件：按鍵(Button)
版面佈局：標籤頁（Tab）、列佈局(Row)、行佈局(Column)

以上內容除了可直接顯示在 Jupyter Notebook 欄位上，還可透過獨立網頁顯示，包括裝置端（本地端）網址(http://localhost:7860)，或公開（雲端）網址(https：//xxxx.gradio.live)，方便分享結果給其它人使用。

接下來就依序介紹幾個常用模組的使用方式給大家參考。完整範例可點擊下列連結直接於 Google Colab 上啟動。

建議開啟後，先點擊選單「檔案」─「在雲端硬碟中儲存複本」，方便之後可以修改及測試程式。接著點擊選單「執行階段」─「全部執行」可一口氣把所有範例都執行一遍。

vMaker_EdgeAI_24_Fig01
Fig. 1 Google Colab 工作及執行畫面。(OmniXRI整理製作, 2024/12/15)

2024年12月2日星期一

20241204_元大證券2024年第四季投資論壇-2025 AI機器人全球發展趨勢與台廠商機

作者：許哲豪(Jack Hsu), 2024/12/04

20241204_Yuanta_AIRobot_001

相關課程簡報不公開，以下僅提供相關參考連結。

簡報大網

如何從工業機器人如何邁向AI機器人
- 機器手臂
- 輪型機器人
- 多足型機器人
- 類人型機器人
AI機器人系統分析與主要供應台商
- 傳動系統與智慧感測
- 工業電腦與AI加速硬體
- 決策型智慧系統
- 生成型智慧系統
AI機器人發展趨勢及投資重點
- AI機器人應用場域及預期市場規模
- AI模型建置與伺服器需求
- 雲端應用與邊緣智慧
- AI機器人面臨之挑戰
總結

訂閱：文章 (Atom)

2024年12月21日 星期六

如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播

2024年12月18日 星期三

【vMaker Edge AI專欄】 2024 合輯

延伸閱讀：

2024年12月8日 星期日

【vMaker Edge AI專欄 #24】 如何使用 Gradio 快速搭建人工智慧應用圖形化人機介面

2024年12月2日 星期一

20241204_元大證券2024年第四季投資論壇-2025 AI機器人全球發展趨勢與台廠商機

簡報大網

【頂置】簡報、源碼、系列文快速連結區

2024年12月21日星期六

2024年12月18日星期三

2024年12月8日星期日

【vMaker Edge AI專欄 #24】如何使用 Gradio 快速搭建人工智慧應用圖形化人機介面

2024年12月2日星期一