【手把手深度實戰教學】vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架

【手把手深度實戰教學】vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架

日期： 11月 01, 2025 技術分享 DeepLearning101

【手把手深度實戰教學】vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架

四大框架特性矩陣

四大框架特性矩陣

四大框架特性矩陣
維度	Ollama	vLLM	SGLang	LLaMA.cpp Server
核心定位	本地便捷與模型管理	GPU 高吞吐 / 低延遲	複雜工作流 + 高性能	極致輕量、隨處可跑
典型硬體	CPU / Apple Silicon / NVIDIA	NVIDIA CUDA 多卡 / 多機	NVIDIA / 部分 AMD GPU	CPU / CUDA / Apple Metal / WASM
權重 / 格式	GGUF、亦可導入 HF 權重	HF Transformers / safetensors	HF Transformers / safetensors	GGUF（主）
量化	4 / 5 / 8-bit（GGUF）	FP16 / BF16（外掛支援 GPTQ / AWQ / FP8）	FP16 / BF16 / INT4 / FP8 / GPTQ	4 / 5 / 8-bit（GGUF）
KV Cache 優化	基於 llama.cpp，支援 paged KV cache 與流式管理	PagedAttention	RadixAttention + Reuse Cache（支援 streaming prefill）	高效 C++ 實作
批次 / 排程	基礎，單模型單隊列偏多	連續批次 + 動態排程	連續批次 + 零開銷排程	單隊列為主
多 GPU / 分散式	有限	強	強（張量並行）	有限（以單機為主）
多模型 / 多租戶	易切換，併發有限	支援，多模型常駐 / 熱切換	支援，工作流級控制	支援多模型切換（非並行）
LoRA / Adapter	基本支援	多 LoRA / PEFT 請求級	LoRA / Adapter 支援	具 LoRA 推理支援
長上下文	取決於模型與量化，速度中等	高效，適合長上下文高併發	高效，Chunked Prefill 佳	可長上下文，吞吐較低
推測解碼	限	有（逐步完善）	有（成熟）	有
結構化 / 約束輸出	基礎	JSON / 函式工具模式	JSON、函式與自定義 DSL（最強）	Grammar / GBNF 成熟
多模態	取決於模型包	支援多模態模型（視模型）	支援文字 / 多模態管線	取決於模型與轉換
OpenAI API 兼容	是	是	是	是
嵌入 / 向量	有	有	有	有
監控 / 可觀測	基礎	較完善（指標 / 日誌）	較完善（工作流視角）	基礎
部署複雜度	極低	中（需 GPU 與調優）	中（需 GPU + 程式化）	低（單一二進位）
社群成熟度	高	高	中高（增長快）	極高
代表用例	私有助手 / 離線 / PoC	生產級 API 服務	代理 / 工具協作 / 多步任務	邊緣 / 離線 / 受限環境

核心技術機制對比

核心技術機制對比
維度	vLLM	SGLang	Ollama / LLaMA.cpp	TensorRT-LLM
記憶體/快取	PagedAttention (分頁虛擬記憶體)	RadixAttention (字首樹共享)	量化 (GGUF, 權重壓縮)	核心級優化
批次/排程	連續批次 (動態插入)	連續批次 + 零開銷排程	單隊列為主 (Ollama)	優化的批次處理
量化支援	FP16/BF16 (外掛 GPTQ/AWQ)	FP16/BF16/INT4/FP8	GGUF (4/5/8-bit)	FP8 / FP4 / INT4 (原生)
結構化輸出	JSON / 函式工具模式	DSL 驅動 (最強)	GBNF (LLaMA.cpp) / 基礎 (Ollama)	支援有限

框架選型總覽表

框架選型總覽表
框架	核心技術/優勢	典型適用場景
vLLM	PagedAttention, 連續批次, TTFT優異	企業級高併發, 生產級 API 服務
SGLang	RadixAttention (前綴複用), 結構化 DSL	複雜工作流, 代理/多步驟任務, 高吞吐多輪對話
Ollama	易用, 本地部署, 多模型管理 (GGUF)	個人開發, 快速原型, 隱私/離線場景 (Apple Silicon/CPU)
LLaMA.cpp Server	C++ 實現, 極致輕量, GBNF 語法約束	邊緣設備, 硬體受限環境, 跨平台 (WASM)
TensorRT-LLM	NVIDIA 深度優化, 強大量化 (FP8/FP4), 延遲最低	對延遲要求極苛刻的應用 (如高頻交易)
XInference	分離式部署 (Prefill/Decode), K8s 分布式	大規模分布式部署, 快速驗證
LightLLM	三進程異步, TokenAttention, 輕量級	邊緣設備部署 (手機, IoT)
LMDeploy	國產硬體 (昇騰) 深度優化, 多模態	國產硬體部署, 視覺語言混合任務
MindSpore Inference	昇騰達芬奇架構, CBQ 量化	昇騰硬體生態