作者:Jack OmniXRI, 2024/11/15
2022年底 OpenAI 推出 ChatGPT 後,各大廠紛紛推出自己的大語言模型(Large Language Models, LLM),讓電腦也能像人類一樣地自然問答。不過一開始的模型參數量都非常驚人,高達數千億個,如 GPT3 就有 1750 億(簡寫成175B), GPT3.5 更高達 2000億(200B),因此推論時需要消耗非常巨大的算力、記憶體及電力,所以只能依靠雲端伺服器才能完成。經過這兩年的發展,大語言模型已從數千億個參數漸漸演進到只需數十億到數億個參數就能有不錯的表現,目前不成文約定多半稱70億(7B)個參數以下的模型為小語言模型(Small Language Models, SLM)[1]。而同時邊緣裝置的算力也從數 TOPS@INT8 (每秒運算一兆次八位元整數)提升至數十TOPS,讓邊緣裝置在不連網的情況下也能獨立完成 SLM 的推論工作。
目前可以獨運行LLM的邊緣裝置大致上可分為桌機筆電(AI PC /NB)[2] [3]、行動通訊裝置(AI Phone / Tablet)[4]、單板微電腦(Single Board Computer,SBC / Microprocessor Unit, MPU)及單晶片(Micro Controller Unit, MCU)等不同等級硬體。其中前兩項由於有較強的算力、較多的記憶體及充足的電力供應,因此運行 7B 及以上 LLM 比較沒問題,而後兩項隨硬體配置不同,可能就需要輔助推論加速單元(Neural Processing Unit, NPU / Deep Learning Accelerator, DLA)或者更小的模型或者更好的優化處理或者容許更慢的反應速度。
本文重點將放在後兩者,以下就幫大家盤點一下常見的19個廠商提供的37種小語言模型,16種 MCU / MPU / SoC 等級 LLM 開發板解決方案,讓大家未來在開發相關應用時能有更多選擇。