2025年6月21日 星期六

【簡報導讀-003】本機執行 GenAI:無需雲端!Intel AI PC 上的本機 AI 推理技術

Intel AI PC and GenAI

為了方便大家快速理解,以下內容使用 Google NotebookLM 產生相關文字及語音解說,如想深入了解的朋友可參考原始來源。

原始Youtube影片: "Run GenAI locally: No cloud needed! | Local AI inference on Intel AI PC"
影片上傳日期: 2025/6/4
主要講者: Adrian Boguszewski
主題: 本機執行 GenAI:無需雲端!Intel AI PC 上的本機 AI 推理技術

 雙人對話式 Podcast 重點摘要:
 

簡報摘要

Adrian Boguszewski 在此簡報中,挑戰了人們普遍認為生成式 AI (GenAI) 必須在雲端運行的觀念。他展示了 Intel AI PC 如何利用其整合式 CPU、GPU 和 NPU,有效地在本機執行各種 AI 工作負載,特別是 GenAI 應用程式。簡報強調了本機推理的優勢,包括隱私、離線能力和成本效益,並介紹了 OpenVINO 和 OpenVINO GenAI 等軟體工具如何優化和簡化在 Intel 硬體上的 AI 部署。透過實時演示,他證明了筆記型電腦足以處理複雜的 GenAI 任務,例如文字到圖像生成、圖像到圖像轉換、語音轉錄和具備 RAG 管道的聊天機器人。

主要主題與重要觀點

  1. GenAI 的本機執行能力
  • 挑戰雲端必要性:Adrian 強調,許多人認為 GenAI 必須在雲端運行,但他旨在證明筆記型電腦等本機設備足以勝任。他開場就問:「有多少人認為要運行 GenAI,您必須使用雲端?」「有多少人認為我面前的這個設備絕對足以運行 JAI?」
  • AI PC 的定義:AI PC 被定義為「任何可以運行 AI 工作負載的 PC」。他展示的特定設備整合了 CPU、GPU 和 NPU 在一個晶片上,是其筆記型電腦的核心。
  1. 傳統 AI 與生成式 AI 的差異
  • 輸出特性:
    • 傳統 AI:「輸出是從輸入和模型中預測出來的如果使用完全相同的模型和相同的輸入,輸出將完全相同。」
    • 生成式 AI:「生成的內容是絕對獨特的。它是文字、音樂、圖像、影片,任何您想要的。」
  • 模型大小:
    *傳統 AI:數千到數億個參數。
    • 生成式 AI:個位數十億或數兆個參數,「這意味著 GenAI 可能需要更多資源。」
  • 使用者互動:
    • 傳統 AI:適合長時間背景任務,需要低延遲。
    • 生成式 AI:使用者通常與模型互動,詢問問題或請求生成內容,對於答案可以等待較長時間(例如「我們可以等待 5 秒鐘的答案」)。
  1. Intel AI PC 的硬體組成
  • 三種引擎:筆記型電腦包含三個關鍵引擎,都在單一晶片上:
    • CPU:「用於快速響應,用於低延遲工作負載。」
    • GPU:「用於高吞吐量繁重計算。」
    • NPU (神經處理單元):「用於節省電池壽命」和「專為 AI 推理而設計,別無其他」。
  • 資源分配範例:
    • 深度估計:可以使用 NPU 或 CPU。
    • 聊天機器人:可能適合使用 GPU,因為它需要更多計算。
  • 記憶體利用率:如果使用 NPU 或整合式 GPU,「您總是可以使用高達一半的系統記憶體」,這與離散 GPU 的固定記憶體限制不同。例如,一個 64GB 記憶體的電腦,有 32GB 可用於 GPU 或 NPU。
  1. Intel 的 AI 軟體堆疊
  • OpenVINO:
    • 定義:「一個用於優化和部署 AI 推理的開源工具包。」
    • 演變:最初是「Open Visual Inference and Neural Network Optimization」,但現在「不再僅限於電腦視覺」,也支援 NLP、音訊、大型語言模型、生成式 AI 和 Transformer。
    • 功能:將 PyTorch、TensorFlow、Keras 等框架的模型轉換為 OpenVINO 格式,並部署在各種 Intel 硬體和 ARM 上,支援任何作業系統。
    • 限制:OpenVINO 僅用於推理,不適用於訓練。
    • 整合方式:可以透過 C++ 或 Python 程式碼使用,或整合到 PyTorch (torch.compile)、Keras 和 ONNX 中。
  • Optimum Intel:
    • 目的:「我們將 Hugging Face 的便利性與 OpenVINO 的效率結合起來,創建了 Optimum Intel。」
    • 優勢:為熟悉 Hugging Face 的 Diffusers 或 Transformers 的開發者提供熟悉的 API,只需更改類別即可使用 OpenVINO 後端。
  • OpenVINO GenAI:
    • 必要性:儘管 Optimum Intel 很方便,但 OpenVINO GenAI 作為一個獨立的套件,旨在提供更輕量、更直接的推理方法。
    • 主要優勢:
    • 更少的程式碼:「只需三行程式碼」即可運行大型語言模型管道。
    • 更少的依賴性:與 Optimum Intel 及其龐大的依賴關係(超過 2GB)相比,「OpenVINO GenAI 依賴於 OpenVINO 和 OpenVINO Tokenizers,以及 NumPy。」這對於邊緣設備和網路不佳的環境尤其重要。
    • 支援的管道:LLM(大型語言模型)、文字到圖像、圖像到圖像、Whisper(語音到文字)、視覺語言模型。
    • 模型準備:可以從 Hugging Face 下載預轉換模型,或使用 Optimum CLI 將其他格式的模型轉換為 OpenVINO 格式,並支援量化(例如 N4 格式)以提高性能和減少記憶體佔用。
    • 可用性:作為開源專案在 GitHub 上提供,並可透過 pip install openvino-genai 安裝。
  1. 實時演示與性能評估
  • 文字到圖像生成 (Paint Your Dreams):
    • CPU 性能:首次推理需要約 24 秒,「不太好」。
    • 整合式 GPU 性能:首次推理需要約 9 秒(需編譯 OpenCL 核心),但之後「不到一秒鐘就能看到新圖像」,證明其高效能。
    • NPU 性能:首次推理的編譯時間極長(約 100-170 秒),是他最抱怨的地方。然而,第二次生成僅需 1.5 秒,「相當不錯」。NPU 雖然不比 GPU 快,但比 CPU 快得多,且能節省電池壽命。
  • 圖像到圖像轉換與 Inpainting:展示了如何修改輸入圖像的內容,同時保持其他部分不變。
  • RAG 管道聊天機器人:
    • 多設備利用:此演示使用了三種不同的模型,分別在 NPU(嵌入模型)、CPU(重新排序模型)和 GPU(Llama 3.2 3B 聊天機器人模型)上運行,充分利用了 AI PC 的所有引擎。
    • 性能:在整合式 GPU 上實現了「33 個 tokens 每秒」,遠超人類閱讀速度(通常 5-9 個 tokens 每秒)。
    • 精確度:儘管模型大小為 30 億參數,但其總結病人記錄的能力「非常精確」。
    • 個性化:聊天機器人可以透過修改 YAML 設定檔來改變個性(例如醫療助理、導師、調酒師),展示了應用彈性。
  1. 本機推理的優勢
  • 離線能力:「我可以斷開網路連接,它仍然會運行,因為它是本機推理。」
  • 隱私:資料無需上傳到雲端。
  • 成本:避免了雲端服務的持續費用。
  • 可訪問性:在資源有限或網路連接不穩定的環境中,本機推理至關重要(例如「連接在森林某處的邊緣設備」)。
  1. 其他資源與呼籲
  • 開源演示:所有演示都可在 GitHub 上的 openvino_build_deploy 儲存庫中找到,並鼓勵使用者自行嘗試。
  • 硬體要求:
  • GPU:大多數 Intel CPU 都集成了 GPU,特別是筆記型電腦。
  • NPU:需要 Intel Core Ultra 系列 1 或 2 處理器。
  • 聯絡方式:提供 LinkedIn QR code 供進一步交流。

結論

Adrian Boguszewski 成功地證明了本機 AI 推理,特別是在 Intel AI PC 上,不僅可行,而且對於許多 GenAI 應用程式來說是高效且實用的選擇。透過軟體工具的優化和硬體加速單元的整合,使用者能夠在不依賴雲端的情況下,體驗到生成式 AI 的強大功能,同時享有隱私、低延遲和離線運行的好處。


沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

常有人反應用手機瀏覽本部落格時常要捲很多頁才能找到系列發文、開源專案、課程及活動簡報,為了方便大家快速查詢,特整理連結如下,敬請參考! Edge AI Taiwan 邊緣智能交流區 全像顯示與互動交流區 台科大(NTUST) 人工智慧與邊緣運算實務(2021-2...