為了方便大家快速理解,以下內容使用 Google NotebookLM 產生相關文字及語音解說,如想深入了解的朋友可參考原始來源。
原始Youtube影片: "Run GenAI locally: No cloud needed! | Local AI inference on Intel AI PC"
影片上傳日期: 2025/6/4
主要講者: Adrian Boguszewski
主題: 本機執行 GenAI:無需雲端!Intel AI PC 上的本機 AI 推理技術
簡報摘要
Adrian Boguszewski 在此簡報中,挑戰了人們普遍認為生成式 AI (GenAI) 必須在雲端運行的觀念。他展示了 Intel AI PC 如何利用其整合式 CPU、GPU 和 NPU,有效地在本機執行各種 AI 工作負載,特別是 GenAI 應用程式。簡報強調了本機推理的優勢,包括隱私、離線能力和成本效益,並介紹了 OpenVINO 和 OpenVINO GenAI 等軟體工具如何優化和簡化在 Intel 硬體上的 AI 部署。透過實時演示,他證明了筆記型電腦足以處理複雜的 GenAI 任務,例如文字到圖像生成、圖像到圖像轉換、語音轉錄和具備 RAG 管道的聊天機器人。
主要主題與重要觀點
- GenAI 的本機執行能力
- 挑戰雲端必要性:Adrian 強調,許多人認為 GenAI 必須在雲端運行,但他旨在證明筆記型電腦等本機設備足以勝任。他開場就問:「有多少人認為要運行 GenAI,您必須使用雲端?」「有多少人認為我面前的這個設備絕對足以運行 JAI?」
- AI PC 的定義:AI PC 被定義為「任何可以運行 AI 工作負載的 PC」。他展示的特定設備整合了 CPU、GPU 和 NPU 在一個晶片上,是其筆記型電腦的核心。
- 傳統 AI 與生成式 AI 的差異
- 輸出特性:
- 傳統 AI:「輸出是從輸入和模型中預測出來的…如果使用完全相同的模型和相同的輸入,輸出將完全相同。」
- 生成式 AI:「生成的內容是絕對獨特的。它是文字、音樂、圖像、影片,任何您想要的。」
- 模型大小:
*傳統 AI:數千到數億個參數。- 生成式 AI:個位數十億或數兆個參數,「這意味著 GenAI 可能需要更多資源。」
- 使用者互動:
- 傳統 AI:適合長時間背景任務,需要低延遲。
- 生成式 AI:使用者通常與模型互動,詢問問題或請求生成內容,對於答案可以等待較長時間(例如「我們可以等待 5 秒鐘的答案」)。
- Intel AI PC 的硬體組成
- 三種引擎:筆記型電腦包含三個關鍵引擎,都在單一晶片上:
- CPU:「用於快速響應,用於低延遲工作負載。」
- GPU:「用於高吞吐量…繁重計算。」
- NPU (神經處理單元):「用於節省電池壽命」和「專為 AI 推理而設計,別無其他」。
- 資源分配範例:
- 深度估計:可以使用 NPU 或 CPU。
- 聊天機器人:可能適合使用 GPU,因為它需要更多計算。
- 記憶體利用率:如果使用 NPU 或整合式 GPU,「您總是可以使用高達一半的系統記憶體」,這與離散 GPU 的固定記憶體限制不同。例如,一個 64GB 記憶體的電腦,有 32GB 可用於 GPU 或 NPU。
- Intel 的 AI 軟體堆疊
- OpenVINO:
- 定義:「一個用於優化和部署 AI 推理的開源工具包。」
- 演變:最初是「Open Visual Inference and Neural Network Optimization」,但現在「不再僅限於電腦視覺」,也支援 NLP、音訊、大型語言模型、生成式 AI 和 Transformer。
- 功能:將 PyTorch、TensorFlow、Keras 等框架的模型轉換為 OpenVINO 格式,並部署在各種 Intel 硬體和 ARM 上,支援任何作業系統。
- 限制:OpenVINO 僅用於推理,不適用於訓練。
- 整合方式:可以透過 C++ 或 Python 程式碼使用,或整合到 PyTorch (torch.compile)、Keras 和 ONNX 中。
- Optimum Intel:
- 目的:「我們將 Hugging Face 的便利性與 OpenVINO 的效率結合起來,創建了 Optimum Intel。」
- 優勢:為熟悉 Hugging Face 的 Diffusers 或 Transformers 的開發者提供熟悉的 API,只需更改類別即可使用 OpenVINO 後端。
- OpenVINO GenAI:
- 必要性:儘管 Optimum Intel 很方便,但 OpenVINO GenAI 作為一個獨立的套件,旨在提供更輕量、更直接的推理方法。
- 主要優勢:
- 更少的程式碼:「只需三行程式碼」即可運行大型語言模型管道。
- 更少的依賴性:與 Optimum Intel 及其龐大的依賴關係(超過 2GB)相比,「OpenVINO GenAI 依賴於 OpenVINO 和 OpenVINO Tokenizers,以及 NumPy。」這對於邊緣設備和網路不佳的環境尤其重要。
- 支援的管道:LLM(大型語言模型)、文字到圖像、圖像到圖像、Whisper(語音到文字)、視覺語言模型。
- 模型準備:可以從 Hugging Face 下載預轉換模型,或使用 Optimum CLI 將其他格式的模型轉換為 OpenVINO 格式,並支援量化(例如 N4 格式)以提高性能和減少記憶體佔用。
- 可用性:作為開源專案在 GitHub 上提供,並可透過 pip install openvino-genai 安裝。
- 實時演示與性能評估
- 文字到圖像生成 (Paint Your Dreams):
- CPU 性能:首次推理需要約 24 秒,「不太好」。
- 整合式 GPU 性能:首次推理需要約 9 秒(需編譯 OpenCL 核心),但之後「不到一秒鐘就能看到新圖像」,證明其高效能。
- NPU 性能:首次推理的編譯時間極長(約 100-170 秒),是他最抱怨的地方。然而,第二次生成僅需 1.5 秒,「相當不錯」。NPU 雖然不比 GPU 快,但比 CPU 快得多,且能節省電池壽命。
- 圖像到圖像轉換與 Inpainting:展示了如何修改輸入圖像的內容,同時保持其他部分不變。
- RAG 管道聊天機器人:
- 多設備利用:此演示使用了三種不同的模型,分別在 NPU(嵌入模型)、CPU(重新排序模型)和 GPU(Llama 3.2 3B 聊天機器人模型)上運行,充分利用了 AI PC 的所有引擎。
- 性能:在整合式 GPU 上實現了「33 個 tokens 每秒」,遠超人類閱讀速度(通常 5-9 個 tokens 每秒)。
- 精確度:儘管模型大小為 30 億參數,但其總結病人記錄的能力「非常精確」。
- 個性化:聊天機器人可以透過修改 YAML 設定檔來改變個性(例如醫療助理、導師、調酒師),展示了應用彈性。
- 本機推理的優勢
- 離線能力:「我可以斷開網路連接,它仍然會運行,因為它是本機推理。」
- 隱私:資料無需上傳到雲端。
- 成本:避免了雲端服務的持續費用。
- 可訪問性:在資源有限或網路連接不穩定的環境中,本機推理至關重要(例如「連接在森林某處的邊緣設備」)。
- 其他資源與呼籲
- 開源演示:所有演示都可在 GitHub 上的 openvino_build_deploy 儲存庫中找到,並鼓勵使用者自行嘗試。
- 硬體要求:
- GPU:大多數 Intel CPU 都集成了 GPU,特別是筆記型電腦。
- NPU:需要 Intel Core Ultra 系列 1 或 2 處理器。
- 聯絡方式:提供 LinkedIn QR code 供進一步交流。
結論
Adrian Boguszewski 成功地證明了本機 AI 推理,特別是在 Intel AI PC 上,不僅可行,而且對於許多 GenAI 應用程式來說是高效且實用的選擇。透過軟體工具的優化和硬體加速單元的整合,使用者能夠在不依賴雲端的情況下,體驗到生成式 AI 的強大功能,同時享有隱私、低延遲和離線運行的好處。
沒有留言:
張貼留言