本課程完全免費,請勿移作商業用途!更多課程內容請參考文末教學資源連結。歡迎追蹤、留言、訂閱、點讚、轉發,讓更多需要的朋友也能一起學習。
課程直播日期: 2025/04/02
課程直播連結: https://youtu.be/TYyz88IhGd8
課程簡報名稱: 20250402_TInyML_Course_Ch04_OmniXRI_Jack.pdf
OmniXRI (Omni-eXtened Reality Interaction) 歐尼克斯實境互動工作室是一個全方位電腦視覺、實境互動、邊緣計算及人工智慧技術的愛好者及分享者,歡迎大家不吝留言指教多多交流。 這裡的文章大部份是個人原創,如有引用到他人內容都會註明,若不慎疏漏侵犯到,煩請儘快通知,我們會儘速處理。當然這裡的資料也歡迎引用及推廣,煩請註明出處(網頁網址),謝謝!
本課程完全免費,請勿移作商業用途!更多課程內容請參考文末教學資源連結。歡迎追蹤、留言、訂閱、點讚、轉發,讓更多需要的朋友也能一起學習。
課程直播日期: 2025/04/02
課程直播連結: https://youtu.be/TYyz88IhGd8
課程簡報名稱: 20250402_TInyML_Course_Ch04_OmniXRI_Jack.pdf
本課程完全免費,請勿移作商業用途!更多課程內容請參考文末教學資源連結。歡迎追蹤、留言、訂閱、點讚、轉發,讓更多需要的朋友也能一起學習。
課程直播日期: 2025/03/26
課程直播連結: https://youtu.be/FgmhEuYAXBU
課程簡報名稱: 20250326_TinyML_Course_Ch03_OmniXRI_Jack.pdf
作者: Jack OmniXRI 2025/3/24
隨著生成式人工智慧(Generative Artificial Intelligence, GenAI)技術的日益普及,數位分身(Digital Avatar)或稱數字人(Digital Human)也開始出現在很多智慧客服及人機互動應用上,讓使用者再也不用面對冷冰冰的機器進行操作。一個完整的數位分身,就像真人一樣,要具有自然語言對話、豐富肢體動作和產生生動表情的能力,其中就需要用到許多生成式AI技術,包括利用語音轉文字(Speech to Text, STT)得到問題的文字,交給大語言模型(Large Language Model, LLM)進行文字問答,再將文字轉語音(Text to Speech, TTS)把答案讀出,最後再配合語音自動對嘴形(Lip Sync)讓人物影像的嘴巴也能和語音同步動起來。
去(2024)年底曾寫過一篇文章「如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播」[1],介紹了數位分身所需擁有的文字轉語音和聲音自動嘴型功能,算是實現了數位分身的後半段「自動讀稿機」的能力。此次就來幫大家介紹前半段,使用麥克風收音進行問話,然後再使用大語言模型來思考及產生問答結果,如此就能搞定數位分身的前半段,構成一個簡單完整的系統。