歐尼克斯實境互動工作室(OmniXRI): 【簡報導讀-004】邊緣裝置上的大型語言模型

2025年6月28日星期六

【簡報導讀-004】邊緣裝置上的大型語言模型

為了方便大家快速理解，以下內容使用 Google NotebookLM 產生相關文字及語音解說，如想深入了解的朋友可參考原始來源。

原始Youtube影片： "LLMs On The Edge"
影片上傳日期： 2025/6/16
主要講者： Sharad Chole
主題：邊緣裝置上的大型語言模型

Podcast

雙人對話式 Podcast 重點摘要：

簡報摘要

本次簡報將探討 LLMs 在邊緣運算領域的演進、挑戰與解決方案，並強調其應用潛力。

LLM 的演進與多模態能力

LLMs 已從最初的文字輸入與輸出，發展到能理解圖像、影片和語音等多元輸入。這種多模態的演進，擴展了 LLM 的應用範疇。

從小型到大型，再到精簡化模型：「我們已經看到 LLM 從非常小的模型演變到非常大的模型，再到更精簡和更小的模型。」這顯示了模型尺寸的動態調整，以適應不同應用需求。
多模態輸入與輸出： LLMs 不再僅限於文字處理，還能「理解不只是基於文字的輸入，還包括基於圖像的輸入、影片或語音。」這使得 LLM 能夠處理更複雜的真實世界資料。
工具使用與遠端呼叫： LLMs 已發展出支援工具使用和遠端呼叫的能力，以「增強其能力、增強其知識。」這表示 LLM 可以透過外部資源來擴展其知識邊界，例如進行網路搜尋。

LLM 的運作機制：詞元 (Tokens)、權重 (Weights) 與 Transformer 區塊

理解 LLM 的內部運作對於優化邊緣部署至關重要。

詞元 (Tokens) 的概念：詞元是 LLM 的「詞彙」，「對於我們來說，詞彙基本上就是一個單字。」然而，對於 LLM 而言，詞元是「資訊的位元組表示」。詞元的作用是「將問題空間從特定的表示法中簡化出來」，使得模型能夠處理更為精煉的輸入。
- 詞彙量的擴展：最初的 LLM 詞彙量為 32,000 個詞元，目前已擴展到 128,000 個詞元。對於圖像，詞元空間更是連續的，能將圖像的「區塊對應到詞元」。
- 圖像到詞元：「一個 512x512 的圖像可以被表示成一千個詞元。」這展示了將視覺資訊轉化為模型可理解的詞元形式的能力。
權重 (Weights) 與 Transformer 區塊：權重是模型在訓練階段學習到的「參數」，儲存在 Transformer 區塊中。LLM 由一系列 Transformer 區塊組成，這些區塊將嵌入 (embeddings) 從一個空間轉換到另一個空間。
- Attention 機制： Transformer 區塊中的 Attention 機制，使用 Keys、Queries 和 Values 來「專注於特定組的詞語」。這使得模型能夠根據輸入內容，選擇性地關注重要的資訊。
- MLP 區塊的重要性：大多數 LLM 的權重（約 90-95%）來自於多層感知機 (MLP) 區塊，因此「最近在混合專家 (Mixture of Expert) 方面所做的大部分改進，就是為了降低這裡大型權重的複雜性或成本。」
自回歸 (Auto-regressive) 性質： LLM 具有自回歸性質，即「每次生成下一個詞元時，都需要知道所有先前的詞元」，因為它們「總是在預測下一個詞元」。這種特性使得 LLM 能夠進行連貫的文字生成和推理。

邊緣設備部署的挑戰

將大型 LLMs 部署到邊緣設備面臨嚴峻的資源限制。

頻寬和功耗限制：邊緣設備「受頻寬和功耗限制」。這是將 LLM 應用從數據中心轉移到邊緣的主要挑戰。
權重儲存與頻繁讀取： LLM 的權重通常高達「數十億參數」，每次生成詞元時都需要讀取這些權重。在邊緣設備上，通常是「一次只有一個請求」，這使得優化頻寬變得至關重要。
多模態數據處理的負擔：處理圖像和影片等高密度數據會產生大量的詞元，導致「更多的功耗和頻寬需求」。例如，影片理解通常會將影片轉化為多張圖像，並將其降採樣至較低解析度（例如 384x384），以降低資源消耗。

解決方案與優化策略

為克服邊緣設備的限制，業界正採用多種優化技術。

量化 (Quantization)：量化是將「低位元表示」，例如將 16 位元的權重減少到 2.5 位元，甚至將激活值儲存為 FP8 或 FP4 格式。
- 權衡：量化會導致「1 到 2% 的準確度下降」，但能帶來「總體性能 4 到 5 倍的提升」。這種權衡需要由應用開發者根據具體應用場景來決定。
- 應用領域的準確度要求：對於「玩具 (toys)」類應用，準確度要求不高；而對於「工具 (tools)」類應用（例如翻譯），則需要更高的穩健性。
統一的軟體工具鏈：需要一個「連貫的軟體工具鏈」，能夠同時處理圖像處理、圖像生成以及 LLM 處理任務。
知識截止 (Knowledge Cutoff) 與工具使用： LLM 具有知識截止期，即其知識僅限於訓練數據的時段。為了彌補這一點，LLM 已學習使用外部工具。
- 強化學習： LLM 透過「強化學習」來增強其使用外部資源的能力。
- 代理 (Agents) 的概念： LLM 可以調用如網路搜尋代理、程式碼代理或瀏覽器代理等專門的「代理」，來獲取模型自身不具備的最新資訊。這些代理因其專業性而「執行成本更低」。
- 硬體設計考量：頻寬與計算的平行化：設計硬體時，關鍵是要「確保計算和頻寬幾乎始終平行活動」，並「以最佳方式利用頻寬」。
- 多模型同時運行：在邊緣設備上，可以考慮「同時運行多個模型」，平衡計算密集型模型和頻寬密集型模型。
- GPU 的限制： GPU 在邊緣設備上並非最佳選擇，因為它們「不夠省電」，需要「高頻寬記憶體」，且在沒有批次處理的情況下，GPU 的利用率會非常低。
專用加速器：需要設計「足夠靈活」的架構，能夠根據量化程度進行調整，並提供最佳利用率。這包括：
- 串流引擎：具備「內聯壓縮和解壓縮」能力，以有效利用頻寬。
- 保持單元活躍：始終保持「注意力單元或計算矩陣乘法」單元處於活躍狀態。
- 專用注意力引擎：用於加速注意力機制，同時最小化大上下文所需的數據儲存量。

應用場景

LLM 在邊緣設備上的應用正在不斷擴展：

圖像理解與生成： LLM 能夠理解圖像，並基於上下文進行圖像生成。其「保持上下文的能力」使其在影片生成或圖像修改方面比其他基於擴散的模型更具優勢，因為它能確保跨幀的一致性。
影片理解：透過將影片轉換為多張圖像，LLM 也能進行影片內容的理解。
工具整合：未來，LLM 在邊緣設備上使用網路搜尋或其他工具將變得「相當普遍」，這將極大地擴展其應用範圍。

總結

LLMs 在邊緣設備上的部署代表著人工智慧應用的一個重要轉變。儘管面臨頻寬、功耗和計算能力的嚴峻挑戰，但透過量化、模型蒸餾、智能工具整合以及專用硬體設計等策略，LLMs 正逐漸走向普適性。這些技術使得 LLMs 能夠在各種受限的邊緣環境中，提供更即時、個人化且智能的服務，開啟了從智能助理到自動駕駛等多種創新應用的大門。

歐尼克斯實境互動工作室(OmniXRI)

2025年6月28日星期六

【簡報導讀-004】邊緣裝置上的大型語言模型

Podcast

簡報摘要

總結

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

標籤

2025年6月28日 星期六

【簡報導讀-004】邊緣裝置上的大型語言模型

Podcast

簡報摘要

總結

沒有留言:

張貼留言

【頂置】簡報、源碼、系列文快速連結區

2025年6月28日星期六