作者: Jack OmniXRI 2025/3/24
隨著生成式人工智慧(Generative Artificial Intelligence, GenAI)技術的日益普及,數位分身(Digital Avatar)或稱數字人(Digital Human)也開始出現在很多智慧客服及人機互動應用上,讓使用者再也不用面對冷冰冰的機器進行操作。一個完整的數位分身,就像真人一樣,要具有自然語言對話、豐富肢體動作和產生生動表情的能力,其中就需要用到許多生成式AI技術,包括利用語音轉文字(Speech to Text, STT)得到問題的文字,交給大語言模型(Large Language Model, LLM)進行文字問答,再將文字轉語音(Text to Speech, TTS)把答案讀出,最後再配合語音自動對嘴形(Lip Sync)讓人物影像的嘴巴也能和語音同步動起來。
去(2024)年底曾寫過一篇文章「如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播」[1],介紹了數位分身所需擁有的文字轉語音和聲音自動嘴型功能,算是實現了數位分身的後半段「自動讀稿機」的能力。此次就來幫大家介紹前半段,使用麥克風收音進行問話,然後再使用大語言模型來思考及產生問答結果,如此就能搞定數位分身的前半段,構成一個簡單完整的系統。
在上一篇文章中使用的是 Intel 第一代 AI PC (Core Ultra 5 125H)[2],這次將使用第二代 AI PC (Core Ultra 7 258V)[3] 來進行測試。主要會使用到語音轉文字模型 Whisper 及大語言模型 DeepSeek-R1,運行時完全不用上網,所以不會有資安問題,但生成的內容是否滿足需求就暫不討論,這裡僅就生成反應速度進行討論。
以往我們都是使用 OpenVINO 標準版來進行開發,但其實在 2024.x 版之後就有提供 OpenVINO GenAI 版本可直接下載。這個版本算是基於標準版 Runtime API 加上生成式AI API,並可整合 Optimum-cli 及 Hugging Face ,可大幅簡化模型下載、推理及部署複雜度,還可針對 CPU / GPU / NPU 的硬體加速提供更好的推理性能,所以此次範例程式會採用 GenAI API 形式執行。
Fig. 1 Intel OpenVINO GenAI API 架構示意圖。(OmniXRI整理製作, 2025/03/24)
接下來就分別從硬體、環境建置、模型及整合案例逐一進行介紹。
完整整合範例程式: https://github.com/OmniXRI/digital_avatar
(註:本文範例不適用 Google Colab 執行,僅限 Intel OpenVINO Notebooks 虛擬環境下使用)
1.推論硬體簡介
此次我們使用 Intel 第二代 AI PC Khadas Mind 2 AI Maker Kit 作為測試硬體,其主要規格如下所示。
- Intel® Core™ Ultra 7 258V
- CPU: Lunar Lake, 8 P-Cores, 8 Threads
- GPU: Arc™ 140V (16GB)
- NPU: 4.0 AI Engine
- 32GB LPDDR5X 8533MHz
- 1TB PCIe 4.0 2230 SSD
- AI Performance:
- CPU: up to 5 TOPS
- NPU: up to 47 TOPS
- GPU: up to 64 TOPS
- WiFi+ Bluetooth: AX211D2
- Size: 146 × 105 × 20 mm
- Weight: 435 g
Fig. 2 Khadas Mind 2 AI Maker Kit。(OmniXRI整理製作, 2025/03/24)
2. 執行 OpenVINO 數位分身
2.1. Ubuntu (Linux Docker) 版本
Intel 為了開發者測試 AI PC 相關功能,提供了許多使用者案例,其中也包含了數位分身[4]。這個案例可使用 Docker 在 Ubuntu (Linux) 上進行安裝,完成啟動後即可上傳一小段影片作為分身,此時會結合 Whisper(TTS), LLM(ollama), MeloTTS(TTS), Wav2Lip(Lipsync), LivePortrait 加上網頁人機介面(GUI)即可實現數位分身自動對話及回應功能,本文就不特別介紹,請自行參考相關說明文件。
Fig. 3 Intel Digital Avatar Linux 版範例。[4]
2.2. Windows 版本
為了讓使用 Windows 的朋友也能體驗一下建置數位分身的過程,以下將分別介紹 Intel OpenVINO Notebooks 自帶使用 GenAI API 的語音轉文字(TTS)[5]及大語言模型(LLM)[6]範例,最後再簡單整合一下並測試其執行效能。
關於 OpenVINO Notebooks 在 Widows 安裝及啟動範例方式可直接參考 Github 說明文件[7],這裡就不再贅述。安裝前請務必依文件說明將 Intel GPU / NPU 等 Linux 驅動程式更新好,以免程式無法順利運行。
3. 語音轉文字(STT) - Whisper
語音轉文字(或稱自動語音辨識 Automatic Speech Recognition, ASR)技術由來已久了,但辨識正確度一直不理想,直到「深度學習」的「Transformer」技術誕生後才有大幅改善,產生不少相關模型。 OpenAI 於 2022 年開源了 Whisper 模型,大受歡迎,它可以很容易辨識英文及多種語言,當然也包括中文,因此也間接衍生出很多相關應用,如影片自動上字幕、即時翻譯、智慧客服等。
在 OpenVINO Notebooks 中有提供一組範例,名為「whisper-asr-genai」[5] (2024.5版後才有提供)。打開「whisper-asr-genai.ipynb」,點擊選單「Kernel」-「Restart Kernel and Run All Cells…」即可完整執行。
預設會自動下載「多語系 Multilingual」、「openai/whisper-tiny」版本模型,存放於同名路徑下。接著會使用 Intel Optimum-CLI 將模型轉換為 OpenVINO IR 格式(*.bin + *.xml) 存放於相同路徑下。接著使用 Intel NNCF 進行模型量化壓縮,最後即可載入並透過網頁使用者介面進行操作。程式完整步驟如下所示。
- 下載 PyTorch 模型。
- 運行 PyTorch 模型推理。
- 使用 OpenVINO Integration 與 HuggingFace Optimum 轉換模型。
- 使用 Generate API 運行模型。
- 比較 PyTorch 和 OpenVINO 模型的效能。
- 使用 NNCF 量化 OpenVINO 模型。
- 檢查演示影片的量化模型結果。
- 比較原始模型和量化模型的大小、效能和準確性。
- 啟動語音辨識的互動式演示。
註:下載及轉換時間,會隨網路速度、CPU等級、硬碟型式(傳統碟或固態碟)、模型大小而有所不同,所需時間從數十分鐘到數小時不等)
目前可支援 Whisper 模型大小,如下圖所示。
Fig. 4 OpenAI Whisper 可支援模型類型及大小。[8]
如有需要其它大小模型,請勿使用全部執行,要改成單步執行(Ctrl + Enter),點擊下拉選單,手動選擇模型類型及大小,再進行下載及轉換。完成後會自動產生對應大小名稱的檔案夾。初步實驗後覺得 Tiny 純中文及中英混合辨識能力略差,建議可改用 Small 大小,處理速度及辨識率達到較理想狀況。若仍覺效果不好可再下載更大模型來處理。
註:模型下載預設會存放在 C:\Users\使用者姓名\.cache\huggingface\hub\models–openai–whisper–xxxx 路徑下,xxxx 表模型大小。
下載完成並轉成 OpenVINO IR 格式後就不需存在,若下載不同尺寸模型造磁碟空間不足,可自行刪除。建議此路徑最好是固態硬碟,以利檔案快速存取。
由於範例程式有很多為了展示及說明的冗餘部份,且切換 CPU / GPU / NPU 時程式又要重新執行下載、轉換,相當浪費時間且不方便。因此若已執行過上述範例或下載並轉換好多個模型時,可改用下列程式「whisper-asr-genai_run.ipynb」並搭配網頁人機介面「gradio_helper_whisper_run.py」來執行,就能節省許多啟動時間。
Fig. 5 Whisper STT 範例執行結果。(OmniXRI整理製作, 2025/03/24)
以下就是相關程式及說明。
gradio_helper_whisper_run.py
和 gradio_helper.py 內容相同,主要負責人機介面相關設定。
whisper-asr-genai_run.ipynb
"""
# Whisper for OpenVINO GenAI 單獨執行含 Gradio 介面範例(deepseek-r1-run.ipynb)
by Jack OmniXRI, 2025/03/24
原始範例: https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/whisper-asr-genai/whisper-asr-genai.ipynb
原始範例全部執行(Restart Kernel and Run All Cells)後,預設會取得 whisper-tiny 模型, 經轉換後會得到 whisper-tiny-quantized 量化後較小的模型。如果辨識率不佳想要使用大一點的模型,可採用手動單步執行方式完成。
本範例為簡化版,執行前需先完整執行過原始範例,取得模型並轉換好 OpenVINO 所需 IR 格式。
"""
## 1. 設定工作參數
# 指定執行裝置 "CPU", "GPU", "NPU", "AUTO"
device = "GPU"
# 指定模型名稱 "whisper-large-v3-turbo", "whisper-large-v3", "whisper-large-v2", "whisper-large",
# "whisper-medium", "whisper-small", "whisper-base", "whisper-tiny",
# 若要指定量化後模型 model_id 則在原名稱後方再加上 -quantized
model_id = "whisper-small"
# 指定 OpenVINO IR 格式模型(*.xml)、權重(*.bin) 路徑,假設對應模型已下載並轉檔完成
from pathlib import Path
model_path = Path(f"{model_id}")
## 2. 使用 OpenVINO GenAI 實例化 LLM 流水線
import openvino_genai as ov_genai
import sys
import time
print(f"Loading model from {model_path}\n")
t0 = time.perf_counter() # 取得開始時間
ov_pipe = ov_genai.WhisperPipeline(str(model_path), device)
t1 = time.perf_counter() # 取得結束時間
print(f"Model loading time: {(t1-t0):.4f} seconds\n") # 列出模型載入時間
## 3. 啟動聊天機器人人機介面
"""
Gradio 人機介面設定可參考 gradio_helper_whisper_run.py
執行後可直接在欄位上操作,亦可開啟網址 http://127.0.0.1:7860 (http://localhost:7860) 使用瀏覽器頁面進行操作。
操作時可點選下方範例聲音聲案或自行選擇聲音檔案載入,或點擊麥克風圖案,再點擊紅色圓點錄音符號進行錄音,接著按下「Transcribe」即可將聲音轉成文字,同時顯示轉換耗時及文字內容,目前輸人的語音可支援中英混合。若想將中文即時翻成英文,則按下「Translate」就會把結果顯示在「Result」區域。
"""
from gradio_helper_whisper_run import make_demo, GradioPipeline
pipe = ov_pipe
gr_pipeline = GradioPipeline(pipe, model_id, quantized=False)
demo = make_demo(gr_pipeline)
4. 大語言模型(LLM) - DeepSeek R1
2022年底 ChatGPT 現身,開啟了大語言模型及生成式AI的紀元,它改變了人機介面的方式,讓電腦也能讀懂、聽懂、看懂人類的需求並給出更接近人類的回應。今(2025)年農曆年過年時, AI 界最大的新聞大概就是 DeepSeek R1 了,它橫空出世、震憾了全世界,其中最大因素就是它可以用更小的模型、更高的效率來完成自然對話推論,同時還可以把思考過程顯示出來,更重要的是它把模型權重開源出來(模型本身程式碼未開源)[9],並提供極低的 API 呼叫價格,讓各種 AI 應用得以藉此發揮出更多效益。
由於該模型採用大量中國資料訓練而得,且當使用雲端版時會將資料回傳到中國,因此有許多人對其生成的內容及資安問題打上一些問號。不過還好它有提供開源權重,因此大家可以將模型及權重下載到本地裝置端(如AI PC)執行,這樣就可避開資安問題,至於回答的內容是否能滿足所有領域,這就暫時不討論。若仍有使用上疑慮,未來可採用其它 LLM 模型,如 LLAMA, TAIDE 等取代即可。
Intel 為了讓大家也能快速感受一下這個模型,因此 OpenVINO Notebooks 2025.0 版之後也加入 DeepSeek R1-Distill 這個模型的範例程式,其範例程式存放在 「\deepseek-r1」 路徑下,名為 「deepseek-r1.ipynb」,目前可支援蒸餾(精簡)後模型大小如下。
- DeepSeek-R1-Distill-Qwen-1.5B (15億個參數)
- DeepSeek-R1-Distill-Qwen-7B (70億個參數)
- DeepSeek-R1-Distill-Llama-8B (80億個參數)
- DeepSeek-R1-Distill-Qwen-14B (140億個參數)
- DeepSeek-R1-Distill-Qwen-32B (320億個參數,經量化後可部份支援)
- DeepSeek-R1-Distill-Llama-70B (700億個參數,AI PC 記憶體不足無法支援)
另外為了讓推理時可以更輕量,範例中也提供使用 Intel NNCF 對模型權重進行8位元或4位元量化(壓縮)處理,其中包括
- 16位元浮點數(FP16) (原始32位元浮點壓縮而得)
- 8位元整數(INT8)
- 4位元整數(INT4)
- 4位元激活感知(IN4 AWQ, Activation-aware weight Quantization) (有使用部份資料集進行校正)
- 4位元通道量化(INT4 NPU-frendly) (適合NPU推論用)
根據模型參數量的大小及權重值壓縮方式不同會造成推論能力的改變,例如使用 14B 模型加上 INT8 權重值壓縮與使用 1.5B 模型加上 INT4 權重值壓縮,前者推論能力較好,但磁碟儲存空間佔用巨大,推論速度變慢,而後者就能快速反應但回答結果就有待查核。因此在推論正確、可用性及效能間如何取捨就有待使用者自行測試了。更多模型評比可參考官方說明文件。[9]
deepseek-r1.ipynb 範例程式完整步驟如下所示。
- 選擇欲下載模型。
- 使用 Optimum-CLI 轉換模型及壓縮權重。
- 使用 OpenVINO GenAI 實例化LLM流水線。
- 啟動聊天機器人的人機介面。
開啟範例後,建議不要一口氣執行全部程式,因為預設會自動下載「DeepSeek-R1-Distill-Llama-8B」(約15GB)及採用「INT4」進行權重壓縮,再利用 Optimum-CLI 進行模型轉換變成 OpenVINO IR 格式(*.bin + *.xml) ,這些工作會非常耗時,依網路連線速度可能需要數小時不等,同時也非常佔硬碟空間,使用前請先確保有足夠空間。建議可先變更系統電源設定,使其「當外部電源供電時」-「永不進入睡眠」,以免下載到一半就中斷又要重來。因此建議可用手動單步執行選擇小一點的模型及INT4格式,這樣可以花少一點時間就能開始測試。待有空時再回頭下載更大一點的模型。以下簡單列出不同模型下載及 INT4 權重壓縮後佔用的硬碟容量。
模型名稱 | 原始模型下載 | INT4權重壓縮 |
---|---|---|
DeepSeek-R1-Distill-Llama-8B | 14.9 GB | 4.99 GB |
DeepSeek-R1-Distill-Qwen-1.5B | 3.31 GB | 1.08 GB |
DeepSeek-R1-Distill-Qwen-7B | 14.1 GB | 4.16 GB |
DeepSeek-R1-Distill-Qwen-14B | 27.5 GB | 7.81 GB |
註:模型下載預設會存放在 C:\Users\使用者姓名\.cache\huggingface\hub\models–openai–whisper–xxxx 路徑下,xxxx 表模型大小。
下載完成並轉成 OpenVINO IR 格式後就不需存在,若下載不同尺寸模型造磁碟空間不足,可自行刪除。建議此路徑最好是固態硬碟,以利檔案快速存取。
由於範例程式有很多為了展示及說明的冗餘部份,且切換 CPU / GPU / NPU 時程式又要重新執行下載、轉換,相當浪費時間且不方便。因此若已執行過上述範例或下載並轉換好多個模型時,可改用下列程式「deepseek-r1_run.ipynb」並搭配網頁人機介面「gradio_helper_deepseek-r1_run.py」來執行,就能節省許多啟動時間
過程中如果出現文字回覆到一半就結束時,請點擊進階選項「Advanced Options」將最大新詞元「Max new Tokens」的設定值調高即可改善,但缺點是輸出的時間會變長。
Fig. 6 DeepSeek-R1 LLM 範例執行結果。(OmniXRI整理製作, 2025/03/24)
以下就是相關程式及說明。
llm_config_run.py
和 llm_config_run.py 基本相同,主要修改部份如下:
- DEFAULT_SYSTEM_PROMPT_CHINESE 內容由簡體中文變成繁體中文。
- default_language 由 "English" 改為 "Chinese"
- get_llm_selection_widget 函式最後一個參數設定由 default_model_idx=-3 改為 -2。
gradio_helper_deepseek-r1_run.py
和 gradio_helper.py 基本相同,主要修改部份如下:
- chinese_examples 內容由簡體中文變成繁體中文。
- DEFAULT_SYSTEM_PROMPT_CHINESE 內容由簡體中文變成繁體中文。
deepseek-r1_run.ipynb
"""
# DeepSeek-R1 for OpenVINO GenAI 單獨執行含 Gradio 介面範例(deepseek-r1_run.ipynb)
by Jack OmniXRI, 2025/03/24
原始範例: https://github.com/openvinotoolkit/openvino_notebooks/blob/latest/notebooks/deepseek-r1/deepseek-r1.ipynb
原始範例全部執行(Restart Kernel and Run All Cells)後,預設會取得 DeepSeek-R1-Distill-Qwen-14B 模型, INT4 權重壓縮格式,預計下載約 15 GB,轉檔後會產生 7.81 GB 大小檔案。如想要使用小一點的模型,可採用手動單步執行方式完成。
本範例為簡化版,執行前需先完整執行過原始範例,取得模型並轉換好 OpenVINO 所需 IR 格式。
"""
## 1. 設定工作參數
# 指定執行裝置 "CPU", "GPU", "NPU", "AUTO"
device = "GPU"
# 手動切換下拉式選單,取得模型相關參數,包括語系、模型名稱、權重壓縮格式
# 預設會指定 Chinese語系問題範例, DeepSeek-R1-Distill-Llama-8B 模型, INT4 權重壓縮格式
# 相關內容可參考 llm_config_run.py
from llm_config_run import get_llm_selection_widget
form, lang, model_id_widget, compression_variant, _ = get_llm_selection_widget(device=device)
# 顯示表單
form
# 將下拉式選單內容複製到變數中
model_configuration = model_id_widget.value
model_id = model_id_widget.label
print(f"Selected model {model_id} with {compression_variant.value} compression")
# 指定 OpenVINO IR 格式模型(*.xml)、權重(*.bin) 路徑,假設對應模型已下載並轉檔完成
from pathlib import Path
model_path = f"{model_id}\\{compression_variant.value}_compressed_weights"
model_dir = Path(model_path)
## 2. 使用 OpenVINO GenAI 實例化 LLM 流水線
import openvino_genai as ov_genai
import sys
import time
print(f"Loading model from {model_dir}\n")
t0 = time.perf_counter() # 取得開始時間
pipe = ov_genai.LLMPipeline(str(model_dir), device) # 建立 LLM 流水線
generation_config = ov_genai.GenerationConfig() # 設定基本參數
generation_config.max_new_tokens = 128 # 設定最大新詞元數量
t1 = time.perf_counter() # 取得結束時間
print(f"Model loading time: {(t1-t0):.4f} seconds\n") # 列出模型載入時間
## 3. 啟動聊天機器人人機介面
"""
Gradio 人機介面設定可參考 gradio_helper_deepseek_run.py
執行後可直接在欄位上操作,亦可開啟網址 http://127.0.0.1:7860 (http://localhost:7860) 使用瀏覽器頁面進行操作。
操作時可點選下方範例句子,或手動輸入問題,繁中/簡中/英文或混合皆可,接著按下「Summit」即可開始產生思考過程(簡中)及答案。如果顯示一半就停了,可點擊進階選項「Advance Options」。將最大新詞元「Max New Tokens」調到最大值即可改善。
如果不習慣簡體中文輸出,可輸入提示詞「以下內容請用繁體中文輸出」就可改善。
"""
from gradio_helper_deepseek_run import make_demo
demo = make_demo(pipe, model_configuration, model_id, lang.value, device == "NPU")
try:
demo.launch(debug=True)
except Exception:
demo.launch(debug=True, share=True)
5. 綜合測試及結果分析
為了方便整合上述兩個範例,請先至少完整執行「whisper-asr-genai.ipynb」及「deepseek-r1.ipynb」一次,取得 STT 及 LLM 模型及轉換好的 OpenVINo IR 格式。
接著在 \notebooks 路徑下建立一個 \digital-avatar 路徑,將 \notebooks\whisper-asr-genai 及 \notebooks\deepseek-r1 路徑下所有檔案複製一份到新建的 \digital-avatar 路徑下。複製過程中會有部份檔案名稱重覆(如READMD.md, notebook_utils.py, gradio_helper.py, *.pyc等),可直接覆蓋掉,因為這些檔案之後都會被其它內容取代。接著到[10]下載準備好的範例額外範例ZIP,解壓縮後將所有檔案也複製到 \digital-avatar 路徑下。
接著就可執行「digital_avatar_run.ipynb」並搭配網頁人機介面「gradio_helper_digital_avatar_run.py」來感受一下用麥克風講話,電腦回覆文字答案的效果。
Fig. 7 數位分身之 Whisper 語音轉文字及 DeepSeek-R1 大語言模型合併測試結果。(OmniXRI整理製作, 2025/03/24)
以下就是相關程式及說明。
digital_avatar_run.ipynb
即把「whisper-asr-genai_run.ipynb」和「deepseek-r1_run.ipynb」合併在一起,whisper部份使用NPU,deepseek部份使用GPU,而變數名稱重覆的作一些調整,其它大致相同,這裡就不重覆說明,完整程式內容請參考[10]。
gradio_helper_digital_avatar_run.py
為了讓人機介面能整合在一起,這裡把 「gradio_helper_whisper_run.py」 和 「gradio_helper_deepseek_run.py」 合併在一起,並且加入新欄位來調整版面,完整程式碼如下所示。
# for Whisper STT
from pathlib import Path
from transformers.pipelines.audio_utils import ffmpeg_read
from typing import Callable
import gradio as gr
import requests
import time
# for DeepSeek-R1 LLM
import openvino as ov
import openvino_genai as ov_genai
from uuid import uuid4
from threading import Event, Thread
import queue
import sys
import re
from genai_helper import ChunkStreamer
# for Whisper STT
audio_en_example_path = Path("en_example.wav")
audio_ml_example_path = Path("ml_example.wav")
if not audio_en_example_path.exists():
r = requests.get("https://huggingface.co/spaces/distil-whisper/whisper-vs-distil-whisper/resolve/main/assets/example_1.wav")
with open(audio_en_example_path, "wb") as f:
f.write(r.content)
if not audio_ml_example_path.exists():
r = requests.get("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/jeanNL.wav")
with open(audio_ml_example_path, "wb") as f:
f.write(r.content)
MAX_AUDIO_MINS = 30 # maximum audio input in minutes
class GradioPipeline:
def __init__(self, ov_pipe, model_id, quantized=False) -> None:
self.pipe = ov_pipe
self.model_id = model_id
self.multilingual = not model_id.endswith(".en")
self.quantized = quantized
def forward(self, inputs, task="transcribe", language="auto"):
generate_kwargs = {}
if not self.multilingual and task != "Transcribe":
raise gr.Error("The model only supports English. The task 'translate' could not be applied.")
elif task == "Translate":
generate_kwargs = {"task": "translate"}
if language and language != "auto":
generate_kwargs["language"] = language
if inputs is None:
raise gr.Error("No audio file submitted! Please record or upload an audio file before submitting your request.")
with open(inputs, "rb") as f:
inputs = f.read()
inputs = ffmpeg_read(inputs, 16000)
audio_length_mins = len(inputs) / 16000 / 60
if audio_length_mins > MAX_AUDIO_MINS:
raise gr.Error(
f"To ensure fair usage of the Space, the maximum audio length permitted is {MAX_AUDIO_MINS} minutes."
f"Got an audio of length {round(audio_length_mins, 3)} minutes."
)
start_time = time.time()
ov_text = self.pipe.generate(inputs.copy(), **generate_kwargs)
ov_time = time.time() - start_time
ov_time = round(ov_time, 2)
return ov_text, ov_time
#############################################################################
# for DeepSeek-R1 LLM
max_new_tokens = 1024
core = ov.Core()
chinese_examples = [
["向 5 歲的孩子解釋重力。"],
["給我講一個關於微積分的笑話。"],
["編寫程式碼時需要避免哪些常見錯誤?"],
["撰寫一篇關於「人工智慧和 OpenVINO 的優勢」的 100 字部落格文章"],
["解方程式:2x + 5 = 15"],
["說出養貓的 5 個優點"],
["簡化 (-k + 4) + (-2 + 3k)"],
["求半徑為20的圓的面積"],
["對未來5年AI趨勢進行預測"],
]
english_examples = [
["Explain gravity to a 5-year-old."],
["Tell me a joke about calculus."],
["What are some common mistakes to avoid when writing code?"],
["Write a 100-word blog post on “Benefits of Artificial Intelligence and OpenVINO“"],
["Solve the equation: 2x + 5 = 15."],
["Name 5 advantages to be a cat"],
["Simplify (-k + 4) + (-2 + 3k)"],
["Find the area of a circle with radius 20"],
["Make a forecast about AI trends for next 5 years"],
]
DEFAULT_SYSTEM_PROMPT = """\
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.
If a question does not make any sense or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.\
"""
DEFAULT_SYSTEM_PROMPT_CHINESE = """\
你是個樂於助人、尊重他人、誠實可靠的助手。在安全的情況下,始終盡可能有幫助地回答。 您的回答不應包含任何有害、不道德、種族主義、性別歧視、有毒、危險或非法的內容。請確保您的回答在社會上是公正的和積極的。
如果一個問題沒有任何意義或與事實不符,請解釋原因,而不是回答錯誤的問題。如果您不知道問題的答案,請不要分享虛假資訊。另外,答案請使用繁體中文。 \
"""
def get_system_prompt(model_language, system_prompt=None):
if system_prompt is not None:
return system_prompt
return DEFAULT_SYSTEM_PROMPT_CHINESE if (model_language == "Chinese") else DEFAULT_SYSTEM_PROMPT
#############################################################################
def make_demo(stt_gr_pipeline, llm_pipe, llm_model_configuration, llm_model_id, llm_model_language, disable_advanced=False):
# for DeepSeek-R1 LLM
import gradio as gr
start_message = get_system_prompt(llm_model_language, llm_model_configuration.get("system_prompt"))
if "genai_chat_template" in llm_model_configuration:
llm_pipe.get_tokenizer().set_chat_template(llm_model_configuration["genai_chat_template"])
def get_uuid():
"""
universal unique identifier for thread
"""
return str(uuid4())
def default_partial_text_processor(partial_text: str, new_text: str):
"""
helper for updating partially generated answer, used by default
Params:
partial_text: text buffer for storing previosly generated text
new_text: text update for the current step
Returns:
updated text string
"""
new_text = re.sub(r"^<think>", "<em><small>I am thinking...", new_text)
new_text = re.sub("</think>", "I think I know the answer</small></em>", new_text)
partial_text += new_text
return partial_text
text_processor = llm_model_configuration.get("partial_text_processor", default_partial_text_processor)
def bot(message, history, temperature, top_p, top_k, repetition_penalty, max_tokens):
"""
callback function for running chatbot on submit button click
Params:
message: new message from user
history: conversation history
temperature: parameter for control the level of creativity in AI-generated text.
By adjusting the `temperature`, you can influence the AI model's probability distribution, making the text more focused or diverse.
top_p: parameter for control the range of tokens considered by the AI model based on their cumulative probability.
top_k: parameter for control the range of tokens considered by the AI model based on their cumulative probability, selecting number of tokens with highest probability.
repetition_penalty: parameter for penalizing tokens based on how frequently they occur in the text.
active_chat: chat state, if true then chat is running, if false then we should start it here.
Returns:
message: reset message and make it ""
history: updated history with message and answer from chatbot
active_chat: if we are here, the chat is running or will be started, so return True
"""
streamer = ChunkStreamer(llm_pipe.get_tokenizer())
if not disable_advanced:
config = llm_pipe.get_generation_config()
config.temperature = temperature
config.top_p = top_p
config.top_k = top_k
config.do_sample = temperature > 0.0
config.max_new_tokens = max_tokens
config.repetition_penalty = repetition_penalty
if "stop_strings" in llm_model_configuration:
config.stop_strings = set(llm_model_configuration["stop_strings"])
else:
config = ov_genai.GenerationConfig()
config.max_new_tokens = max_tokens
history = history or []
if not history:
llm_pipe.start_chat(system_message=start_message)
history.append([message, ""])
new_prompt = message
stream_complete = Event()
def generate_and_signal_complete():
"""
genration function for single thread
"""
streamer.reset()
llm_pipe.generate(new_prompt, config, streamer)
stream_complete.set()
streamer.end()
t1 = Thread(target=generate_and_signal_complete)
t1.start()
partial_text = ""
for new_text in streamer:
partial_text = text_processor(partial_text, new_text)
history[-1][1] = partial_text
yield "", history, streamer
def stop_chat(streamer):
if streamer is not None:
streamer.end()
return None
def stop_chat_and_clear_history(streamer):
if streamer is not None:
streamer.end()
llm_pipe.finish_chat()
streamer.reset()
return None, None
llm_examples = chinese_examples if (llm_model_language == "Chinese") else english_examples
#############################################################################
# for Whisper STT
stt_examples = [[str(audio_en_example_path), ""]]
if stt_gr_pipeline.multilingual:
stt_examples.append([str(audio_ml_example_path), "<|fr|>"])
#############################################################################
# with gr.Blocks(
# theme=gr.themes.Soft(),
# css=".disclaimer {font-variant-caps: all-small-caps;}",
# ) as demo:
with gr.Blocks() as demo:
with gr.Row():
# for Whisper STT
with gr.Accordion("Whisper Speech to Text"):
'''
gr.HTML(
f"""
<div style="text-align: center; max-width: 700px; margin: 0 auto;">
<div
style="
display: grid; align-items: center; gap: 0.8rem; font-size: 1.75rem;
"
>
<h1 style="font-weight: 900; margin-bottom: 7px; line-height: normal;">
OpenVINO Generate API Whisper demo {'with quantized model.' if stt_gr_pipeline.quantized else ''}
</h1>
<div style="font-size: 12px; {'' if stt_gr_pipeline.multilingual else 'display: none;'}">For task 'Translate', please, find the avalible languages
<a href='https://huggingface.co/{stt_gr_pipeline.model_id}/blob/main/generation_config.json'>in 'generation_config.json' of the model</a>
or get 'generation_config' by ov_pipe.get_generation_config() and check the attribute 'lang_to_id'</div>
</div>
</div>
"""
)
'''
audio = gr.components.Audio(type="filepath", label="Audio input")
language = gr.components.Textbox(
label="Language.",
info="List of avalible languages you can find in generation_config.lang_to_id dictionary. Example: <|en|>. Empty string will mean autodetection",
value="",
visible=stt_gr_pipeline.multilingual,
)
with gr.Row():
button_transcribe = gr.Button("Transcribe")
button_translate = gr.Button("Translate", visible=stt_gr_pipeline.multilingual)
with gr.Row():
infer_time = gr.components.Textbox(label="OpenVINO Whisper Generation Time (s)")
with gr.Row():
result = gr.components.Textbox(label="OpenVINO Whisper Result", show_copy_button=True)
button_transcribe.click(
fn=stt_gr_pipeline.forward,
inputs=[audio, button_transcribe, language],
outputs=[result, infer_time],
)
button_translate.click(
fn=stt_gr_pipeline.forward,
inputs=[audio, button_translate, language],
outputs=[result, infer_time],
)
gr.Markdown("## Examples")
gr.Examples(
stt_examples,
inputs=[audio, language],
outputs=[result, infer_time],
fn=stt_gr_pipeline.forward,
cache_examples=False,
)
#############################################################################
# for DeepSeek-R1 LLM
with gr.Accordion("DeepSeek-R1 Large Language Model"):
streamer = gr.State(None)
conversation_id = gr.State(get_uuid)
#gr.Markdown(f"""<h1><center>OpenVINO {llm_model_id} Chatbot</center></h1>""")
chatbot = gr.Chatbot(height=500)
with gr.Row():
with gr.Column():
msg = gr.Textbox(
label="Chat Message Box",
placeholder="Chat Message Box",
show_label=False,
container=False,
)
with gr.Column():
with gr.Row():
submit = gr.Button("Submit")
clear = gr.Button("Clear")
with gr.Row(visible=not disable_advanced):
with gr.Accordion("Advanced Options:", open=False):
with gr.Row():
with gr.Column():
with gr.Row():
temperature = gr.Slider(
label="Temperature",
value=0.1,
minimum=0.0,
maximum=1.0,
step=0.1,
interactive=True,
info="Higher values produce more diverse outputs",
)
with gr.Column():
with gr.Row():
top_p = gr.Slider(
label="Top-p (nucleus sampling)",
value=1.0,
minimum=0.0,
maximum=1,
step=0.01,
interactive=True,
info=(
"Sample from the smallest possible set of tokens whose cumulative probability "
"exceeds top_p. Set to 1 to disable and sample from all tokens."
),
)
with gr.Column():
with gr.Row():
top_k = gr.Slider(
label="Top-k",
value=50,
minimum=0.0,
maximum=200,
step=1,
interactive=True,
info="Sample from a shortlist of top-k tokens — 0 to disable and sample from all tokens.",
)
with gr.Column():
with gr.Row():
repetition_penalty = gr.Slider(
label="Repetition Penalty",
value=1.1,
minimum=1.0,
maximum=2.0,
step=0.1,
interactive=True,
info="Penalize repetition — 1.0 to disable.",
)
with gr.Column():
with gr.Row():
max_tokens = gr.Slider(
label="Max new tokens",
value=256,
minimum=128,
maximum=1024,
step=32,
interactive=True,
info=("Maximum new tokens added to answer. Higher value can work for long response, but require more time to complete"),
)
gr.Examples(llm_examples, inputs=msg, label="Click on any example and press the 'Submit' button")
msg.submit(
fn=bot,
inputs=[msg, chatbot, temperature, top_p, top_k, repetition_penalty, max_tokens],
outputs=[msg, chatbot, streamer],
queue=True,
)
submit.click(
fn=bot,
inputs=[msg, chatbot, temperature, top_p, top_k, repetition_penalty, max_tokens],
outputs=[msg, chatbot, streamer],
queue=True,
)
clear.click(fn=stop_chat_and_clear_history, inputs=streamer, outputs=[chatbot, streamer], queue=False)
return demo
小結
在 Intel OpenVINO Notebooks, GenAI, Optimum-CLI 配套工具協助下,建立一個數位分身已不再是難事,透過本文已幫大家建立了一些基本觀念,後續如何讓這個數位分身能更像真人客服回答特定領域問題且更順暢執行,仍有很多技術有待克服。期待不久的將來,隨著 AI PC 的硬體性能提升及更多開源模型,讓建立邊緣智慧客服及人機互動能更簡單容易上手。
參考文獻
[1] 許哲豪,如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播
https://omnixri.blogspot.com/2024/12/intel-ai-pc-openvino.html
[2] Asus NUC 14 Pro
https://www.asus.com/tw/displays-desktops/nucs/nuc-mini-pcs/asus-nuc-14-pro/
[3] Khadas Mind 2 AI Maker Kit
https://www.khadas.com/product-page/mind-maker-kit-lnl
[4] Github Intel, Edge Developer Kit Reference - Digital Avatar
https://github.com/intel/edge-developer-kit-reference-scripts/tree/main/usecases/ai/digital-avatar
[5] Intel, OpenVINO Notebooks - Automatic speech recognition using Whisper and OpenVINO with Generate API
https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/whisper-asr-genai
[6] Intel, OpenVINO Notebooks - LLM reasoning with DeepSeek-R1 distilled models
https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/deepseek-r1
[7] Github, Intel openvinotoolkit / openvino_notebooks - Installation Guide - Windows
https://github.com/openvinotoolkit/openvino_notebooks/wiki/Windows
[8] Github, openai / whisper
https://github.com/openai/whisper
[9] Github, deepseek-ai / DeepSeek-R1
https://github.com/deepseek-ai/DeepSeek-R1
[10] Github, OmniXRI / digital_avatar
https://github.com/OmniXRI/digital_avatar
延伸閱讀
[A] 許哲豪,【vMaker Edge AI專欄 #24】 如何使用 Gradio 快速搭建人工智慧應用圖形化人機介面
https://omnixri.blogspot.com/2024/12/vmaker-edge-ai-24-gradio.html
[B] Intel, Hugging Face Collections & Spaces & Models & Datasets
https://huggingface.co/Intel
[C] Intel, Hugging Face - Optimum Intel (NNCF, OpenVINO, IPEX)
https://huggingface.co/docs/optimum/intel/index
沒有留言:
張貼留言