- AI 已經從「讀萬卷書」(預訓練)進化到「行萬里路」(Agent 實踐)。現在是時候讓你的 AI 走出對話框,去真實世界裡「幹活」了。
- 語音技術已經從「識別文字」進化到「理解對話」。現在正是構建下一代語音交互應用的最佳時機。
- 2025 年,AI 的眼睛不僅看得更清楚(分割/偵測),看得更懂(OCR/VLM),還學會了閉上眼睛想像世界(生成式 AI)。
- 在大腦層面 (LLM): 它學會了使用工具 (MCP/Skills) 與思考 (Reasoning)。
從「聊天機器人」到「數位勞動力」 - 在交互層面 (Speech): 它告別了機械式的轉錄,進入了情感豐富的實時對話 (STS)。
從「聽說讀寫」到「實時對話」 - 在感知層面 (Vision): 不再只是認字或畫框,而是能讀懂複雜文檔並看清 (VLM/SAM 3)。
從「讀懂文檔」到「看懂世界」
🏗️ 第一部分:大腦與決策 (LLM & Agents)
https://deep-learning-101.github.io/Large-Language-Model
趨勢關鍵詞:Agent 生態、工具標準化、慢思考
2025 年最大的變革在於 AI Agent 的標準化。AI 不再只是陪聊,而是能操控瀏覽器、寫代碼、查資料的數位員工。技術主旋律也不再只是「誰的模型考試分數高」,而是「誰的模型能幫我把工作做完」。從 Manus 的自動化 (Manus is entering the next chapter: we’re joining forces with Meta to take general agents to the next level.)、DeepResearch 的深度研究,到 Anthropic 推出的 MCP 與 Skills 標準,AI 正從「大腦」長出「手腳」。
1. Agent 的「手腳」:連接與行動的標準化
過去開發 Agent 需要寫大量膠水代碼 (Glue Code),今年兩大標準解決了這個問題:
🔌 連接標準:MCP (Model Context Protocol)
概念: 這是 AI 時代的 USB 接口。只要資料源(如 GitHub, Slack, 資料庫)支援 MCP,任何 AI 模型都能直接讀取並操作。
現狀: 生態大爆發,從 GitMCP 到 FastAPI-MCP,開發者可秒級構建工具。
🛠️ 行動標準:Anthropic Skills (新趨勢)
概念: 這是 AI 的「技能包」。MCP 解決了「連接」,Skills 則解決了「如何操作」。
意義: 它定義了 AI 執行任務(如「瀏覽網頁」、「執行 SQL」)的最佳實踐。開發者無需再用 Prompt 痛苦調教,直接掛載 SQL Skill,AI 即具備專家級操作能力。
🚀 代表性 Agent 專案
- DeepResearch 類: Tongyi DeepResearch 和 DeepSearcher 讓 AI 能像研究生一樣,自主搜尋數百篇文獻並寫出深度報告。
操作類: OpenManus 和 Gemini Computer Use 讓 AI 能直接控制滑鼠鍵盤,操作網頁完成訂票、填表等繁瑣工作。
2. 推理模型 (Reasoning):慢思考的勝利
AI「慢下來思考」比「快問快答」更重要。
DeepSeek-R1 開啟了強化學習 (RL) 激發推理能力的風潮,強調「思考過程 (Chain of Thought)」。
NVIDIA Llama-Nemotron 系列則證明了開源模型在數學與邏輯推導上,也能追上閉源巨頭。
3. 端側小模型 (SLM) 的逆襲
AI 走向兩極化,雲端更強,端側更小。Phi-4、MobileLLM 和 SmolLM2 證明了 3B 參數以下的模型,足以在手機端勝任日常助理,Smolagents 框架更讓本地設備也能跑得動 Agent。
📱 SLM (小型語言模型) 的逆襲
能跑才是硬道理: Phi-4、MobileLLM 和 SmolLM2 證明了 3B (30億) 參數以下的模型,在經過高品質數據訓練後,足以勝任手機端的日常助理任務。
Smolagents: Hugging Face 推出的極簡框架,讓開發者在本地小模型上也能跑得動 Agent。
👁️ 聽說讀寫全能 (Omni)
語音大模型: TEN Agent 和 LongCat-Flash-Omni 實現了「端到端」的語音交互。AI 不再是「語音轉文字 -> 思考 -> 文字轉語音」,而是直接聽懂語氣、笑聲,並即時回應,延遲低至人類對話水準。
視覺理解: InternVL 和 Qwen2.5-VL 等模型讓 AI 能看懂複雜的圖表、儀表板甚至影片,為機器人視覺打下基礎。
4. 開發門檻的崩塌:人人都是 AI 工程師
2025 年的工具鏈已經成熟到「令人髮指」的地步,微調和應用開發的門檻被極限拉低。
微調平民化: Unsloth 和 LLaMA Factory 讓微調大模型不再需要昂貴的 H100 集群,普通消費級顯卡就能在家訓練自己的專屬模型。
工作流視覺化: Dify、Flowise 和 Labgflow 讓不懂程式碼的用戶,也能通過「拉積木」的方式,串接 GPT-4、本地知識庫 (RAG) 和外部 API,構建複雜的企業級應用。
🗣️ 第二部分:交互與介面 (Speech AI)
https://deep-learning-101.github.io/Speech-Processing
趨勢關鍵詞:端到端 (STS)、實時對話、情感交互
2025 年是語音 AI (Speech AI) 的分水嶺。過去我們關注的是「識別有多準 (ASR)」或「合成有多像 (TTS)」,而今年的主旋律則轉向了 「端到端實時交互 (Speech-to-Speech)」。
1. 架構變革:告別流水線
過去的 語音 (ASR) ➡ 文本 ➡ 大語言模型 (LLM) ➡ 文本 ➡ 語音 (TTS) 流水線 (Pipeline) 架構雖然模組清晰,但延遲高且丟失情感。
新標準 STS (Speech-to-Speech): 一個多模態模型直接「聽」並直接「說」。
體驗升級: 實現了超低延遲,並保留情感(如語氣、笑聲)。支援 打斷機制 (Interruption),用戶隨時插話,AI 能像真人一樣即時反應。
2. 商業巨頭爭霸:實時 API 三足鼎立
商業三巨頭: OpenAI Realtime API 生態最全;Google Gemini Live 原生音頻情感細膩;AWS Nova Sonic 抗噪強且穩定。
3. 開源模型爆發:ASR 與 TTS 的百家爭鳴
雖然商業 API 很強,但開源社群在 2025 年同樣交出了驚人的成績單。如果你需要私有化部署或節省成本,以下是今年的必備軍火庫:
🎙️ ASR (語音識別):超越 Whisper
OpenAI 的 Whisper 依然是標竿,但挑戰者眾多:
FunASR (阿里達摩院): 2025 推出的 SenseVoice 和 Fun-ASR,在中文識別和計算效率上甚至超越了 Whisper,且支持情緒與事件檢測(如掌聲、笑聲)。
NVIDIA Parakeet/Canary: 主打極致速度,號稱「1秒轉錄1小時音訊」,適合大規模數據處理。
FireRedASR / MedASR: 針對特定領域(如醫療、語音助理)的優化模型開始湧現。
🗣️ TTS (語音合成):零樣本克隆 (Zero-Shot Cloning)
今年的 TTS 關鍵詞是「克隆」與「可控性」:
Fish Speech: 2025 當紅炸子雞,支持多語言克隆,效果驚艷,且社區生態活躍。
GPT-SoVITS: 小樣本訓練的神器,只需 1 分鐘素材就能訓練出高品質模型,適合個人創作者。
CosyVoice (阿里通義): 3秒錄音複製 9 種語言,展現了強大的跨語言能力。
ChatTTS: 專注於對話場景,會主動加入「嗯...」、「那個...」等口語特徵,擬真度極高。
🛠️ 語音增強與分離 (Cocktail Party Problem)
這是不起眼但關鍵的技術。ClearVoice 等項目在今年實現了「一站式處理」,能同時完成降噪、人聲分離和提取。這對於在嘈雜環境下(如工廠、戶外)落地的語音應用至關重要。
4. 實戰開發指南:如何選擇?
面對這麼多工具,2025 年的技術選型建議如下:
場景一:我要做一個「像真人一樣」的 AI 語音客服
方案: 選擇 STS 架構。
工具: OpenAI Realtime API 或 Google Gemini Live。
傳輸: 使用 WebRTC 連接前端,確保用戶說話時能即時打斷 AI。
場景二:我要做影片自動字幕或會議記錄
方案: 選擇高精度的 ASR 模型。
工具:
追求中文準度與標點:FunASR (SenseVoice)。
追求多語言通用與英文:Whisper V3。
追求極致速度:NVIDIA Parakeet。
場景三:我要做 AI 數字人或有聲書
方案: 選擇高表現力的 TTS 模型。
工具:
需要快速克隆名人聲音:GPT-SoVITS。
需要長文本朗讀且穩定:Fish Speech 或 CosyVoice。
需要極致自然的對話感:ChatTTS。
場景四:我想快速搭建原型 (Prototype)
- 神器推薦: FastRTC (Hugging Face 出品)。這是一個 Python 庫,能讓你用極少的代碼,快速搭建起基於 WebRTC 的實時語音 AI Demo,並直接集成 Gradio 介面。
5. 未來展望
2025 年我們看到了語音技術的兩極化發展:大一統 (Unification): 像 Qwen3-TTS 和 Gemini 這樣的大模型,正在嘗試將「理解」與「生成」徹底融合,未來的語音交互將不再區分 ASR 和 TTS,而是一個整體的認知過程。
極致輕量 (Edge AI): 像 KittenTTS (<25MB) 和 Sherpa-onnx 這樣的項目,致力於讓強大的語音能力在手機甚至嵌入式設備上離線運行。
👁️ 第三部分:感知與創造 (Computer Vision)
https://deep-learning-101.github.io//Computer-Vision
趨勢關鍵詞:文檔理解 (OCR)、萬物分割 (SAM 3)、生成式視覺
2025 年是電腦視覺 (Computer Vision, CV) 「去邊界化」的一年。過去我們將 CV 拆解為 OCR、偵測、分割等獨立任務,但今年,隨著多模態大模型 (VLM) 的介入,這些界線正在消失。
1. OCR 文檔解析:大模型時代的「四國爭霸」:2025 年的 OCR 技術不再只是「認字」,而是「文檔理解」。根據最新的技術盤點,目前的 OCR 解決方案已演化出四種主流架構,開發者可依據成本與精度需求,參考 OmniDocBench 評分進行選擇。
OCR 已演化為「文檔理解」,主流架構分為四類:
傳統流水線 (Pipeline): 經典的「檢測 → 識別 → 版面分析」分步處理。如 PP-StructureV3、PaddleOCR-V5、MinerU2-pipeline,成本低但鏈路太長誤差易累積。
模組化專用 VLM (兩段式): 如 PaddleOCR-VL、MonkeyOCR-1.5,MinerU2.5採用「先全局後局部」策略,先看縮略圖定版面,再裁切原圖進 ViT 識別,精準度與算力消耗達到完美平衡。
端到端專用 VLM (一段式):不需要切分版面,直接「看圖說話」的輕量級模型;如 dots.ocr (1.7B 參數)、HunyuanOCR (騰訊混元) 和 Deepseek-OCR,引入了多解析度視覺編碼器與 MoE 解碼器,能將長文檔圖片壓縮成極少的 Token,實現 10-20 倍的無損壓縮。
通用 VLM: 效果上限最高,但 GPU 成本極高且吞吐量低,適合處理極度複雜的非結構化文檔直接用 GPT-4o 識別,效果好但太貴。
結論: 在 OCR 領域,開源的小型專用模型(如 dots.ocr)往往比通用大模型更高效。
2. 萬物分割:SAM 3 的統治:如果說 OCR 是讓電腦「讀書」,那分割 (Segmentation) 就是讓電腦「看清物體輪廓」。2025 年,Meta 的 SAM (Segment Anything Model) 系列依然統治著這個領域
SAM 2 的成熟: Meta 發布的 SAM 2 解決了「視頻分割」的難題,引入了記憶機制,能夠在影片中持續追蹤變形的物體。相關變體如 SAM2Long 更進一步優化了長視頻的處理能力。
SAM 3 登場: 繼 SAM 2 解決視頻分割後,SAM 3 (facebookresearch/sam3) 進一步統一了圖像與視頻建模,提升了對遮擋物體和複雜邊緣的理解,穩坐 SOTA 寶座。
工業應用: RemoteSAM 讓衛星圖也能「指哪切哪」;異常檢測則轉向 CLIP 基於的零樣本方案,無需大量瑕疵樣本訓練。
- 異常檢測 (Anomaly Detection):過去需要大量瑕疵圖片訓練,現在依賴 CLIP 和 VLM 進行少樣本 (Few-shot) 甚至零樣本 (Zero-shot) 檢測。
- FS-SAM2: 改編 SAM 2 用於少樣本語義分割,極大降低了工業部署的門檻。
- AnomalyCLIP & AdaptCLIP: 利用 CLIP 的強大泛化能力,直接通過文字描述(如「刮痕」、「破損」)來檢測異常,無需重新訓練模型。
- CostFilter-AD: 刷新了無監督檢測的上限,證明了不依賴標註也能做好品檢。
- 目標偵測 (Object Detection)
- OV-DINO: 開放詞彙 (Open-Vocabulary) 檢測的代表。這意味著模型可以檢測出它訓練時沒看過的物體,只要你給它物體名稱。
- CountVid: 解決了影片中「數數」的問題(如計算車流、人流),實現了「指哪數哪」的互動式計數。
4. 生成式視覺:從「畫圖」到「造人」:生成式 AI (GenAI) 在 2025 年從靜態圖片轉向了動態視訊與數位人。
- 擴散模型 (Diffusion Models):速度與品質的平衡: Sana (NVIDIA) 證明了高品質生成不需要慢速,號稱比 FLUX 快 100 倍。
- 影片生成爆發: 阿里開源的 Wan-Video (萬相) 和騰訊的 HunyuanVideo 均支持全模態、長時長的影片生成,打破了 Sora 的閉源壟斷。
- 虛擬數字人 (Digital Human):跨越「恐怖谷」的一年。現在的數位人不僅口型對得準,連微表情都能即時生成。
- 開源神器: HeyGem 和 Open Avatar Chat 讓開發者能本地部署自己的 AI 分身,支持即時語音對話與表情同步。
- 全身驅動: EchoMimicV2 和 Hallo3 (CVPR 2025) 已經能做到半身甚至全身的動態驅動,讓虛擬人的肢體語言更加自然。
📋 總結與技術選型建議
- 做文檔處理: 首選 Modular VLM (如 MinerU2.5) 或 End-to-End VLM (如 dots.ocr),別盲目上 GPT-4o。
- 做圖像分割: 直接使用 SAM 2 或最新的 SAM 3,並關注針對特定領域(如醫療、遙感)的微調版本。
- 做影片生成: 關注 Wan-Video 與 HunyuanVideo 的開源生態。
- 做工業檢測: 嘗試 CLIP 基於的零樣本方案,能大幅節省收集瑕疵樣本的時間。
- 想打造「數位員工」 (Complex Task):採用 Agent 架構,務必關注 MCP 協議 與 Anthropic Skills 標準,讓 AI 能標準化地使用工具。
- 想打造「擬人交互」 (Customer Service):選擇 STS (Speech-to-Speech) 架構。前端使用 WebRTC 確保低延遲與打斷體驗,後端可接 OpenAI Realtime 或 Gemini Live。
- 想處理「企業文檔」 (RAG/OCR):避開昂貴的通用大模型,選擇 MinerU2.5 或 dots.ocr 等專用 VLM 模型,性價比最高。
- 想保護隱私或降低成本 (Local/Edge):這些開源 SOTA 模型已經足以構建強大的本地應用
- 大腦用 DeepSeek-R1 或 Llama 3.2
- 聽覺用 SenseVoice
- 視覺用 SAM 3



