
為了方便大家快速理解,以下內容使用 Google NotebookLM 產生相關文字及語音解說,如想深入了解的朋友可參考原始來源。
原始Youtube影片: "AI Acceleration With Efficient Intel Hardware"
影片上傳日期: 2025/6/4
主要講者: Vijay Bandari
主題: Intel 硬體在 AI 加速中的應用
雙人對話式 Podcast 重點摘要:

簡介
這份簡報深入探討了 Intel 如何透過其最新的硬體創新(特別是 Xeon 處理器和 Gaudi 加速器)來推動 AI 和分析領域的進步。簡報強調了 Intel 在 AI 工作負載優化方面的長期承諾,以及與 SAS 等合作夥伴的緊密協作,旨在為從邊緣到雲端的廣泛應用提供最佳效能和總體擁有成本 (TCO)。
主要主題與重要事實
- AI 無處不在:Intel 的統一平台願景
Intel 秉持著「AI 無處不在」的理念,旨在提供一個統一的平台,使其產品線能夠支援從邊緣到雲端的所有 AI 工作負載。
- AI 無處不在是我們正在遵循的口號。
- 產品線涵蓋邊緣的 Atom Core、資料中心的 Xeon Core,以及專為深度學習設計的 Gaudi 加速器。
- Intel 認為 AI 並非單一的工作負載,而是由預訓練、訓練、微調和推論等不同階段組成的生命週期,每個階段都有其獨特的需求,需要選擇合適的產品來實現最佳 TCO 和效能。
- Xeon 6 處理器:AI 和 HPC 工作負載的優化
Xeon 6 是 Intel 最新一代的 CPU,透過架構改進(如核心密度增加、記憶體通道和記憶體選項)為 AI、HPC 和資料庫工作負載帶來顯著的效率提升。
- AMX (Advanced Matrix Extensions) 加速器:從 Xeon 第四代開始引入,Xeon 6 作為第六代也包含此功能。
- AMX 是一種內建於每個核心的矩陣乘法引擎,擁有專門的暫存器和指令集,用於高效處理陣列或矩陣資料,而非逐元素處理。
*這不只適用於相同的資料集,我們確保在不同的演算法集和不同大小及結構的資料集上進行測試,以確保它代表您在使用 SAS 軟體時在現場執行的工作負載類型。 - 對於深度學習 (DL) 工作負載,AMX 能夠帶來 5x 到 10x 的效能提升,與 AVX 512 結合使用,在 BF-16 或 FP16 量化下,甚至能達到 16x 的效能提升。
- AMX 支援 FP16、BF16 和 Int8 等資料類型。
- AMX 並非位於核心外部或插槽旁的加速器,它是核心本身的一部分。
- 低參數模型推論與微調:對於小於 200 億參數的模型,推論和微調在 CPU 上是可行的,Xeon 6 搭配 AMX 加速器可以支援高達 200-300 個使用者。
- 我們對市場的建議是,任何小於 200 億參數的模型進行推論和微調,在 CPU 上都是可行的。
- 總體擁有成本 (TCO) 優勢:相較於傳統部署,升級到 Xeon 6 可以顯著減少伺服器數量(5x 到 17x)和功耗,從而降低 TCO。
- Gaudi 加速器:專為大規模深度學習設計
當模型規模增加或使用者並發數更高時,Gaudi 被推薦作為專用的深度學習加速器。
- Gaudi 是一種 ASIC (特定應用積體電路),專為深度學習而設計,擁有 Tensor Core、Matrix Core 和 HBM 記憶體,並增加了乙太網路頻寬。
- Gaudi 3 旨在替代市場上流行的 GPU,例如 H100 和 H200,提供更好的 TCO。
- 在 SAS Hackathon 訓練營中,參與者成功在 Intel Gaudi 平台上運行 LLM 驅動的代理,展現了其強大的迭代和並行處理能力。
- 軟體生態系統與開發工具
Intel 提供了一整套工具和庫,以確保其硬體能夠被開發者有效利用。
- 流行框架的優化: Intel 與 PyTorch、TensorFlow、Onyx、XG Boost 和 Scikit-learn 等主流框架合作,將其優化程式碼上游化,使得在使用 Intel 架構時,這些框架能夠自動發現並利用硬體優化。
- OpenVINO: Intel 提供的免費工具,用於模型開發和部署,實現「一次開發,多處部署」。OpenVINO 支援模型從雲端或地端訓練的 FP16 量化模型,在邊緣進行 Int8 推論。
- Intel oneAPI: 包含 oneDNN、oneCCL、oneMKL 等多個函式庫,這些函式庫對開發者是透明的,同時也提供開源版本供深度開發使用。
- Intel Tiber Developer Cloud: 一個開發者可以測試 Intel 技術的「遊樂場」,提供作為服務或裸機的多種選項。
- 預優化模型: Intel 在 Hugging Face/Intel 上發布了大量預優化模型,參數範圍從 700 萬到 6700 億不等,供開發者直接使用。
- 機密計算 (TDX):保護 AI 資料和模型
TDX (Trusted Domain Extension) 是 Intel 在 Xeon 第四代處理器之後引入的信任技術,旨在提高 AI 的安全性和負責任使用。
- TDX 允許創建一個包含整個虛擬機的機密領域,保護記憶體中的資料和模型,使其免受潛在的攻擊和未經授權的存取。
- 您記憶體中的資料受到基於矽的加密保護。
- 與軟體實施相比,TDX 能夠將攻擊面減少約 10 倍。
- 在機密計算環境中,即使有人惡意存取記憶體,也只會看到亂碼,CPU 可以在不解密的情況下處理加密資料。
- 延遲與使用者體驗
在 LLM (大型語言模型) 部署中,延遲對使用者體驗至關重要。
- 人類可感知的延遲通常為 100 毫秒。如果響應時間超過 100 毫秒,使用者會感覺到速度較慢。
- 簡報展示了在 Xeon 6 上運行 LLM 的第一詞元延遲和後續詞元延遲數據,例如 200 毫秒、140 毫秒,這些數據在某些情況下優於初始響應需要 3-5 秒的方案。
- 對於低於 200 億參數的模型,Xeon 6 搭配 AMX 可以提供足夠的效能,支援 200-300 個使用者。對於需要支援 10,000 名使用者的情況,則建議使用 Gaudi 等專用加速器。
結論
Intel 透過 Xeon 6 處理器(特別是其內建的 AMX 加速器)、Gaudi 專用 AI 加速器以及完善的軟體生態系統(如 OpenVINO 和 oneAPI),展現了其在 AI 領域的全面佈局。這些創新不僅大幅提升了 AI 工作負載的效能和效率,還透過 TDX 等技術確保了資料和模型的安全。Intel 的目標是提供涵蓋 AI 生命週期各階段的解決方案,讓客戶能夠根據其工作負載需求,在效能、TCO 和可擴展性之間做出最佳選擇。
沒有留言:
張貼留言