【手把手深度實戰教學】vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架

【手把手深度實戰教學】vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架


四大框架特性矩陣

四大框架特性矩陣

四大框架特性矩陣
維度 Ollama vLLM SGLang LLaMA.cpp Server
核心定位本地便捷與模型管理GPU 高吞吐 / 低延遲複雜工作流 + 高性能極致輕量、隨處可跑
典型硬體CPU / Apple Silicon / NVIDIANVIDIA CUDA 多卡 / 多機NVIDIA / 部分 AMD GPUCPU / CUDA / Apple Metal / WASM
權重 / 格式GGUF、亦可導入 HF 權重HF Transformers / safetensorsHF Transformers / safetensorsGGUF(主)
量化4 / 5 / 8-bit(GGUF)FP16 / BF16(外掛支援 GPTQ / AWQ / FP8)FP16 / BF16 / INT4 / FP8 / GPTQ4 / 5 / 8-bit(GGUF)
KV Cache 優化基於 llama.cpp,支援 paged KV cache 與流式管理PagedAttentionRadixAttention + Reuse Cache(支援 streaming prefill)高效 C++ 實作
批次 / 排程基礎,單模型單隊列偏多連續批次 + 動態排程連續批次 + 零開銷排程單隊列為主
多 GPU / 分散式有限強(張量並行)有限(以單機為主)
多模型 / 多租戶易切換,併發有限支援,多模型常駐 / 熱切換支援,工作流級控制支援多模型切換(非並行)
LoRA / Adapter基本支援多 LoRA / PEFT 請求級LoRA / Adapter 支援具 LoRA 推理支援
長上下文取決於模型與量化,速度中等高效,適合長上下文高併發高效,Chunked Prefill 佳可長上下文,吞吐較低
推測解碼有(逐步完善)有(成熟)
結構化 / 約束輸出基礎JSON / 函式工具模式JSON、函式與自定義 DSL(最強)Grammar / GBNF 成熟
多模態取決於模型包支援多模態模型(視模型)支援文字 / 多模態管線取決於模型與轉換
OpenAI API 兼容
嵌入 / 向量
監控 / 可觀測基礎較完善(指標 / 日誌)較完善(工作流視角)基礎
部署複雜度極低中(需 GPU 與調優)中(需 GPU + 程式化)低(單一二進位)
社群成熟度中高(增長快)極高
代表用例私有助手 / 離線 / PoC生產級 API 服務代理 / 工具協作 / 多步任務邊緣 / 離線 / 受限環境

核心技術機制對比

核心技術機制對比
維度vLLMSGLangOllama / LLaMA.cppTensorRT-LLM
記憶體/快取PagedAttention (分頁虛擬記憶體)RadixAttention (字首樹共享)量化 (GGUF, 權重壓縮)核心級優化
批次/排程連續批次 (動態插入)連續批次 + 零開銷排程單隊列為主 (Ollama)優化的批次處理
量化支援FP16/BF16 (外掛 GPTQ/AWQ)FP16/BF16/INT4/FP8GGUF (4/5/8-bit)FP8 / FP4 / INT4 (原生)
結構化輸出JSON / 函式工具模式DSL 驅動 (最強)GBNF (LLaMA.cpp) / 基礎 (Ollama)支援有限

框架選型總覽表

框架選型總覽表
框架核心技術/優勢典型適用場景
vLLMPagedAttention, 連續批次, TTFT優異企業級高併發, 生產級 API 服務
SGLangRadixAttention (前綴複用), 結構化 DSL複雜工作流, 代理/多步驟任務, 高吞吐多輪對話
Ollama易用, 本地部署, 多模型管理 (GGUF)個人開發, 快速原型, 隱私/離線場景 (Apple Silicon/CPU)
LLaMA.cpp ServerC++ 實現, 極致輕量, GBNF 語法約束邊緣設備, 硬體受限環境, 跨平台 (WASM)
TensorRT-LLMNVIDIA 深度優化, 強大量化 (FP8/FP4), 延遲最低對延遲要求極苛刻的應用 (如高頻交易)
XInference分離式部署 (Prefill/Decode), K8s 分布式大規模分布式部署, 快速驗證
LightLLM三進程異步, TokenAttention, 輕量級邊緣設備部署 (手機, IoT)
LMDeploy國產硬體 (昇騰) 深度優化, 多模態國產硬體部署, 視覺語言混合任務
MindSpore Inference昇騰達芬奇架構, CBQ 量化昇騰硬體生態