歐尼克斯實境互動工作室(OmniXRI): 【簡報導讀-003】本機執行 GenAI：無需雲端！Intel AI PC 上的本機 AI 推理技術

Intel AI PC and GenAI

為了方便大家快速理解，以下內容使用 Google NotebookLM 產生相關文字及語音解說，如想深入了解的朋友可參考原始來源。

原始Youtube影片： "Run GenAI locally: No cloud needed! | Local AI inference on Intel AI PC"
影片上傳日期： 2025/6/4
主要講者： Adrian Boguszewski
主題：本機執行 GenAI：無需雲端！Intel AI PC 上的本機 AI 推理技術

雙人對話式 Podcast 重點摘要：

簡報摘要

Adrian Boguszewski 在此簡報中，挑戰了人們普遍認為生成式 AI (GenAI) 必須在雲端運行的觀念。他展示了 Intel AI PC 如何利用其整合式 CPU、GPU 和 NPU，有效地在本機執行各種 AI 工作負載，特別是 GenAI 應用程式。簡報強調了本機推理的優勢，包括隱私、離線能力和成本效益，並介紹了 OpenVINO 和 OpenVINO GenAI 等軟體工具如何優化和簡化在 Intel 硬體上的 AI 部署。透過實時演示，他證明了筆記型電腦足以處理複雜的 GenAI 任務，例如文字到圖像生成、圖像到圖像轉換、語音轉錄和具備 RAG 管道的聊天機器人。

主要主題與重要觀點

GenAI 的本機執行能力

挑戰雲端必要性：Adrian 強調，許多人認為 GenAI 必須在雲端運行，但他旨在證明筆記型電腦等本機設備足以勝任。他開場就問：「有多少人認為要運行 GenAI，您必須使用雲端？」「有多少人認為我面前的這個設備絕對足以運行 JAI？」
AI PC 的定義：AI PC 被定義為「任何可以運行 AI 工作負載的 PC」。他展示的特定設備整合了 CPU、GPU 和 NPU 在一個晶片上，是其筆記型電腦的核心。

傳統 AI 與生成式 AI 的差異

輸出特性：
- 傳統 AI：「輸出是從輸入和模型中預測出來的…如果使用完全相同的模型和相同的輸入，輸出將完全相同。」
- 生成式 AI：「生成的內容是絕對獨特的。它是文字、音樂、圖像、影片，任何您想要的。」
模型大小：
*傳統 AI：數千到數億個參數。
- 生成式 AI：個位數十億或數兆個參數，「這意味著 GenAI 可能需要更多資源。」
使用者互動：
- 傳統 AI：適合長時間背景任務，需要低延遲。
- 生成式 AI：使用者通常與模型互動，詢問問題或請求生成內容，對於答案可以等待較長時間（例如「我們可以等待 5 秒鐘的答案」）。

Intel AI PC 的硬體組成

三種引擎：筆記型電腦包含三個關鍵引擎，都在單一晶片上：
- CPU：「用於快速響應，用於低延遲工作負載。」
- GPU：「用於高吞吐量…繁重計算。」
- NPU (神經處理單元)：「用於節省電池壽命」和「專為 AI 推理而設計，別無其他」。
資源分配範例：
- 深度估計：可以使用 NPU 或 CPU。
- 聊天機器人：可能適合使用 GPU，因為它需要更多計算。
記憶體利用率：如果使用 NPU 或整合式 GPU，「您總是可以使用高達一半的系統記憶體」，這與離散 GPU 的固定記憶體限制不同。例如，一個 64GB 記憶體的電腦，有 32GB 可用於 GPU 或 NPU。

Intel 的 AI 軟體堆疊

OpenVINO：
- 定義：「一個用於優化和部署 AI 推理的開源工具包。」
- 演變：最初是「Open Visual Inference and Neural Network Optimization」，但現在「不再僅限於電腦視覺」，也支援 NLP、音訊、大型語言模型、生成式 AI 和 Transformer。
- 功能：將 PyTorch、TensorFlow、Keras 等框架的模型轉換為 OpenVINO 格式，並部署在各種 Intel 硬體和 ARM 上，支援任何作業系統。
- 限制：OpenVINO 僅用於推理，不適用於訓練。
- 整合方式：可以透過 C++ 或 Python 程式碼使用，或整合到 PyTorch (torch.compile)、Keras 和 ONNX 中。
Optimum Intel：
- 目的：「我們將 Hugging Face 的便利性與 OpenVINO 的效率結合起來，創建了 Optimum Intel。」
- 優勢：為熟悉 Hugging Face 的 Diffusers 或 Transformers 的開發者提供熟悉的 API，只需更改類別即可使用 OpenVINO 後端。
OpenVINO GenAI：
- 必要性：儘管 Optimum Intel 很方便，但 OpenVINO GenAI 作為一個獨立的套件，旨在提供更輕量、更直接的推理方法。
- 主要優勢：
- 更少的程式碼：「只需三行程式碼」即可運行大型語言模型管道。
- 更少的依賴性：與 Optimum Intel 及其龐大的依賴關係（超過 2GB）相比，「OpenVINO GenAI 依賴於 OpenVINO 和 OpenVINO Tokenizers，以及 NumPy。」這對於邊緣設備和網路不佳的環境尤其重要。
- 支援的管道：LLM（大型語言模型）、文字到圖像、圖像到圖像、Whisper（語音到文字）、視覺語言模型。
- 模型準備：可以從 Hugging Face 下載預轉換模型，或使用 Optimum CLI 將其他格式的模型轉換為 OpenVINO 格式，並支援量化（例如 N4 格式）以提高性能和減少記憶體佔用。
- 可用性：作為開源專案在 GitHub 上提供，並可透過 pip install openvino-genai 安裝。

實時演示與性能評估

文字到圖像生成 (Paint Your Dreams)：
- CPU 性能：首次推理需要約 24 秒，「不太好」。
- 整合式 GPU 性能：首次推理需要約 9 秒（需編譯 OpenCL 核心），但之後「不到一秒鐘就能看到新圖像」，證明其高效能。
- NPU 性能：首次推理的編譯時間極長（約 100-170 秒），是他最抱怨的地方。然而，第二次生成僅需 1.5 秒，「相當不錯」。NPU 雖然不比 GPU 快，但比 CPU 快得多，且能節省電池壽命。
圖像到圖像轉換與 Inpainting：展示了如何修改輸入圖像的內容，同時保持其他部分不變。
RAG 管道聊天機器人：
- 多設備利用：此演示使用了三種不同的模型，分別在 NPU（嵌入模型）、CPU（重新排序模型）和 GPU（Llama 3.2 3B 聊天機器人模型）上運行，充分利用了 AI PC 的所有引擎。
- 性能：在整合式 GPU 上實現了「33 個 tokens 每秒」，遠超人類閱讀速度（通常 5-9 個 tokens 每秒）。
- 精確度：儘管模型大小為 30 億參數，但其總結病人記錄的能力「非常精確」。
- 個性化：聊天機器人可以透過修改 YAML 設定檔來改變個性（例如醫療助理、導師、調酒師），展示了應用彈性。

本機推理的優勢

離線能力：「我可以斷開網路連接，它仍然會運行，因為它是本機推理。」
隱私：資料無需上傳到雲端。
成本：避免了雲端服務的持續費用。
可訪問性：在資源有限或網路連接不穩定的環境中，本機推理至關重要（例如「連接在森林某處的邊緣設備」）。

其他資源與呼籲

開源演示：所有演示都可在 GitHub 上的 openvino_build_deploy 儲存庫中找到，並鼓勵使用者自行嘗試。
硬體要求：
GPU：大多數 Intel CPU 都集成了 GPU，特別是筆記型電腦。
NPU：需要 Intel Core Ultra 系列 1 或 2 處理器。
聯絡方式：提供 LinkedIn QR code 供進一步交流。

結論

Adrian Boguszewski 成功地證明了本機 AI 推理，特別是在 Intel AI PC 上，不僅可行，而且對於許多 GenAI 應用程式來說是高效且實用的選擇。透過軟體工具的優化和硬體加速單元的整合，使用者能夠在不依賴雲端的情況下，體驗到生成式 AI 的強大功能，同時享有隱私、低延遲和離線運行的好處。

歐尼克斯實境互動工作室(OmniXRI)

2025年6月21日星期六

【簡報導讀-003】本機執行 GenAI：無需雲端！Intel AI PC 上的本機 AI 推理技術

簡報摘要

主要主題與重要觀點

結論

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

標籤

2025年6月21日 星期六

【簡報導讀-003】本機執行 GenAI：無需雲端！Intel AI PC 上的本機 AI 推理技術

簡報摘要

主要主題與重要觀點

結論

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

2025年6月21日星期六