2025 年 AI 技術全景年終總結，從「讀懂文檔」+ 「聽說讀寫」+ 「聊天機器人」到「看懂世界」+「實時對話」+「數位勞動力」

AI 已經從「讀萬卷書」（預訓練）進化到「行萬里路」（Agent 實踐）。現在是時候讓你的 AI 走出對話框，去真實世界裡「幹活」了。
語音技術已經從「識別文字」進化到「理解對話」。現在正是構建下一代語音交互應用的最佳時機。
AI 的眼睛不僅看得更清楚（分割/偵測），看得更懂（OCR/VLM），還學會了閉上眼睛想像世界（生成式 AI）。

🚀 2025 AI 技術全景年終總結：從「被動對話」到「主動做事的數位勞動力」

從「讀懂文檔」+ 「聽說讀寫」+ 「聊天機器人」到「看懂世界」+「實時對話」+「數位勞動力」

2025 教會了 AI 「怎麼像人一樣工作」，那 2026 會不會又有什麼驚人的發展呢 ? 「和 AI 一起生活在物理與數位混合的世界」？？

從「單兵作戰」到「蜂群思維」 (Swarm Intelligence)，AI/Agent 之間會有專屬的通訊協議，不再需要人類介入微調。
結合 SAM 3 (視覺分割) + STS (實時語音) + LLM (大腦)，機器人將能理解模糊指令？虛擬模擬環境 (Sim-to-Real) 的訓練技術突破？
即時互動式世界生成 (Real-time Interactive World Generation)？AI 就是作業系統 (AI Native OS)？

2023 是大模型的「爆發年」，2024 是「應用落地年」，那 2025 絕對是「Agent (智能體) 與全模態行動年」。今年的技術分水嶺非常明顯：

在大腦層面 (LLM)：它學會了使用工具 (MCP/Skills) 與思考 (Reasoning)。
從「聊天機器人」到「數位勞動力」
在交互層面 (Speech)：它告別了機械式的轉錄，進入了情感豐富的實時對話 (STS)。
從「聽說讀寫」到「實時對話」
在感知層面 (Vision)：不再只是認字或畫框，而是能讀懂複雜文檔並看清 (VLM/SAM 3)。
從「讀懂文檔」到「看懂世界」

🏗️ 第一部分：大腦與決策 (LLM & Agents)

👉 https://deep-learning-101.github.io/Large-Language-Model

趨勢關鍵詞：Agent 生態、工具標準化、慢思考

2025 年最大的變革在於 AI Agent 的標準化。AI 不再只是陪聊，而是能操控瀏覽器、寫代碼、查資料的數位員工。技術主旋律也不再只是「誰的模型考試分數高」，而是「誰的模型能幫我把工作做完」。從 Manus 的自動化 (Manus is entering the next chapter: we’re joining forces with Meta to take general agents to the next level.)、DeepResearch 的深度研究，到 Anthropic 推出的 MCP 與 Skills 標準，AI 正從「大腦」長出「手腳」。

1. Agent 的「手腳」：連接與行動的標準化

過去開發 Agent 需要寫大量膠水代碼 (Glue Code)，今年兩大標準解決了這個問題：
🔌 連接標準：MCP (Model Context Protocol)
概念：這是 AI 時代的 USB 接口。只要資料源（如 GitHub, Slack, 資料庫）支援 MCP，任何 AI 模型都能直接讀取並操作。
現狀：生態大爆發，從 GitMCP 到 FastAPI-MCP，開發者可秒級構建工具。
🛠️ 行動標準：Anthropic Skills (新趨勢)
概念：這是 AI 的「技能包」。MCP 解決了「連接」，Skills 則解決了「如何操作」。
意義：它定義了 AI 執行任務（如「瀏覽網頁」、「執行 SQL」）的最佳實踐。開發者無需再用 Prompt 痛苦調教，直接掛載 SQL Skill，AI 即具備專家級操作能力。
🚀 代表性 Agent 專案DeepResearch 類： Tongyi DeepResearch 和 DeepSearcher 讓 AI 能像研究生一樣，自主搜尋數百篇文獻並寫出深度報告。
操作類： OpenManus 和 Gemini Computer Use 讓 AI 能直接控制滑鼠鍵盤，操作網頁完成訂票、填表等繁瑣工作。

2. 推理模型 (Reasoning)：慢思考的勝利

AI「慢下來思考」比「快問快答」更重要。
DeepSeek-R1 開啟了強化學習 (RL) 激發推理能力的風潮，強調「思考過程 (Chain of Thought)」。
NVIDIA Llama-Nemotron 系列則證明了開源模型在數學與邏輯推導上，也能追上閉源巨頭。

3. 端側小模型 (SLM) 的逆襲

AI 走向兩極化，雲端更強，端側更小。Phi-4、MobileLLM 和 SmolLM2 證明了 3B 參數以下的模型，足以在手機端勝任日常助理，Smolagents 框架更讓本地設備也能跑得動 Agent。
📱 SLM (小型語言模型) 的逆襲
能跑才是硬道理： Phi-4、MobileLLM 和 SmolLM2 證明了 3B (30億) 參數以下的模型，在經過高品質數據訓練後，足以勝任手機端的日常助理任務。
Smolagents： Hugging Face 推出的極簡框架，讓開發者在本地小模型上也能跑得動 Agent。
👁️ 聽說讀寫全能 (Omni)
語音大模型： TEN Agent 和 LongCat-Flash-Omni 實現了「端到端」的語音交互。AI 不再是「語音轉文字 -> 思考 -> 文字轉語音」，而是直接聽懂語氣、笑聲，並即時回應，延遲低至人類對話水準。
視覺理解： InternVL 和 Qwen2.5-VL 等模型讓 AI 能看懂複雜的圖表、儀表板甚至影片，為機器人視覺打下基礎。

4. 開發門檻的崩塌：人人都是 AI 工程師

2025 年的工具鏈已經成熟到「令人髮指」的地步，微調和應用開發的門檻被極限拉低。
微調平民化： Unsloth 和 LLaMA Factory 讓微調大模型不再需要昂貴的 H100 集群，普通消費級顯卡就能在家訓練自己的專屬模型。
工作流視覺化： Dify、Flowise 和 Labgflow 讓不懂程式碼的用戶，也能通過「拉積木」的方式，串接 GPT-4、本地知識庫 (RAG) 和外部 API，構建複雜的企業級應用。

🗣️ 第二部分：交互與介面 (Speech AI)

👉 https://deep-learning-101.github.io/Speech-Processing

趨勢關鍵詞：端到端 (STS)、實時對話、情感交互

2025 年是語音 AI (Speech AI) 的分水嶺。過去我們關注的是「識別有多準 (ASR)」或「合成有多像 (TTS)」，而今年的主旋律則轉向了「端到端實時交互 (Speech-to-Speech)」。

1. 架構變革：告別流水線

過去的語音 (ASR) ➡ 文本 ➡ 大語言模型 (LLM) ➡ 文本 ➡ 語音 (TTS) 流水線 (Pipeline) 架構雖然模組清晰，但延遲高且丟失情感。
新標準 STS (Speech-to-Speech)：一個多模態模型直接「聽」並直接「說」。
體驗升級：實現了超低延遲，並保留情感（如語氣、笑聲）。支援打斷機制 (Interruption)，用戶隨時插話，AI 能像真人一樣即時反應。

2. 商業巨頭爭霸：實時 API 三足鼎立

商業三巨頭： OpenAI Realtime API 生態最全；Google Gemini Live 原生音頻情感細膩；AWS Nova Sonic 抗噪強且穩定。

💡 提示：在傳輸層面上，WebRTC 已成為客戶端（瀏覽器/App）的首選，因為它能處理網絡抖動並保證低延遲；而 WebSocket 則更多用於服務器對服務器的通訊。

3. 開源模型爆發：ASR 與 TTS 的百家爭鳴

雖然商業 API 很強，但開源社群在 2025 年同樣交出了驚人的成績單。如果你需要私有化部署或節省成本，以下是今年的必備軍火庫：

🎙️ ASR (語音識別)：超越 Whisper

OpenAI 的 Whisper 依然是標竿，但挑戰者眾多：
FunASR (阿里達摩院)： 2025 推出的 SenseVoice 和 Fun-ASR，在中文識別和計算效率上甚至超越了 Whisper，且支持情緒與事件檢測（如掌聲、笑聲）。
NVIDIA Parakeet/Canary：主打極致速度，號稱「1秒轉錄1小時音訊」，適合大規模數據處理。
FireRedASR / MedASR：針對特定領域（如醫療、語音助理）的優化模型開始湧現。

🗣️ TTS (語音合成)：零樣本克隆 (Zero-Shot Cloning)
今年的 TTS 關鍵詞是「克隆」與「可控性」：

Fish Speech： 2025 當紅炸子雞，支持多語言克隆，效果驚艷，且社區生態活躍。
GPT-SoVITS：小樣本訓練的神器，只需 1 分鐘素材就能訓練出高品質模型，適合個人創作者。
CosyVoice (阿里通義)： 3秒錄音複製 9 種語言，展現了強大的跨語言能力。
ChatTTS：專注於對話場景，會主動加入「嗯...」、「那個...」等口語特徵，擬真度極高。

🛠️ 語音增強與分離 (Cocktail Party Problem)

這是不起眼但關鍵的技術。ClearVoice 等項目在今年實現了「一站式處理」，能同時完成降噪、人聲分離和提取。這對於在嘈雜環境下（如工廠、戶外）落地的語音應用至關重要。

4. 實戰開發指南：如何選擇？
面對這麼多工具，2025 年的技術選型建議如下：

場景一：我要做一個「像真人一樣」的 AI 語音客服
方案：選擇 STS 架構。
工具： OpenAI Realtime API 或 Google Gemini Live。
傳輸：使用 WebRTC 連接前端，確保用戶說話時能即時打斷 AI。

場景二：我要做影片自動字幕或會議記錄
方案：選擇高精度的 ASR 模型。
工具：
追求中文準度與標點：FunASR (SenseVoice)。
追求多語言通用與英文：Whisper V3。
追求極致速度：NVIDIA Parakeet。

場景三：我要做 AI 數字人或有聲書
方案：選擇高表現力的 TTS 模型。
工具：
需要快速克隆名人聲音：GPT-SoVITS。
需要長文本朗讀且穩定：Fish Speech 或 CosyVoice。
需要極致自然的對話感：ChatTTS。

場景四：我想快速搭建原型 (Prototype)神器推薦： FastRTC (Hugging Face 出品)。這是一個 Python 庫，能讓你用極少的代碼，快速搭建起基於 WebRTC 的實時語音 AI Demo，並直接集成 Gradio 介面。

5. 未來展望2025 年我們看到了語音技術的兩極化發展：

大一統 (Unification)：像 Qwen3-TTS 和 Gemini 這樣的大模型，正在嘗試將「理解」與「生成」徹底融合，未來的語音交互將不再區分 ASR 和 TTS，而是一個整體的認知過程。

極致輕量 (Edge AI)：像 KittenTTS (<25MB) 和 Sherpa-onnx 這樣的項目，致力於讓強大的語音能力在手機甚至嵌入式設備上離線運行。

👁️ 第三部分：感知與創造 (Computer Vision)

👉 https://deep-learning-101.github.io//Computer-Vision

趨勢關鍵詞：文檔理解 (OCR)、萬物分割 (SAM 3)、生成式視覺

2025 年是電腦視覺 (Computer Vision, CV) 「去邊界化」的一年。過去我們將 CV 拆解為 OCR、偵測、分割等獨立任務，但今年，隨著多模態大模型 (VLM) 的介入，這些界線正在消失。
1. OCR 文檔解析：大模型時代的「四國爭霸」：2025 年的 OCR 技術不再只是「認字」，而是「文檔理解」。根據最新的技術盤點，目前的 OCR 解決方案已演化出四種主流架構，開發者可依據成本與精度需求，參考 OmniDocBench 評分進行選擇。

OCR 已演化為「文檔理解」，主流架構分為四類：

傳統流水線 (Pipeline)：經典的「檢測 → 識別 → 版面分析」分步處理。如 PP-StructureV3、PaddleOCR-V5、MinerU2-pipeline，成本低但鏈路太長誤差易累積。
模組化專用 VLM (兩段式)：如 PaddleOCR-VL、MonkeyOCR-1.5，MinerU2.5採用「先全局後局部」策略，先看縮略圖定版面，再裁切原圖進 ViT 識別，精準度與算力消耗達到完美平衡。
端到端專用 VLM (一段式)：不需要切分版面，直接「看圖說話」的輕量級模型；如 dots.ocr (1.7B 參數)、HunyuanOCR (騰訊混元) 和 Deepseek-OCR，引入了多解析度視覺編碼器與 MoE 解碼器，能將長文檔圖片壓縮成極少的 Token，實現 10-20 倍的無損壓縮。
通用 VLM：效果上限最高，但 GPU 成本極高且吞吐量低，適合處理極度複雜的非結構化文檔直接用 GPT-4o 識別，效果好但太貴。
結論：在 OCR 領域，開源的小型專用模型（如 dots.ocr）往往比通用大模型更高效。

2. 萬物分割：SAM 3 的統治：如果說 OCR 是讓電腦「讀書」，那分割 (Segmentation) 就是讓電腦「看清物體輪廓」。2025 年，Meta 的 SAM (Segment Anything Model) 系列依然統治著這個領域

SAM 2 的成熟： Meta 發布的 SAM 2 解決了「視頻分割」的難題，引入了記憶機制，能夠在影片中持續追蹤變形的物體。相關變體如 SAM2Long 更進一步優化了長視頻的處理能力。
SAM 3 登場：繼 SAM 2 解決視頻分割後，SAM 3 (facebookresearch/sam3) 進一步統一了圖像與視頻建模，提升了對遮擋物體和複雜邊緣的理解，穩坐 SOTA 寶座。
工業應用： RemoteSAM 讓衛星圖也能「指哪切哪」；異常檢測則轉向 CLIP 基於的零樣本方案，無需大量瑕疵樣本訓練。

3. 工業感知：異常檢測與目標偵測的融合：在工廠與安防領域，AI 的任務是「找不同」和「數東西」。2025 年的趨勢是：從「訓練」走向「提示 (Prompting)」。

異常檢測 (Anomaly Detection)：過去需要大量瑕疵圖片訓練，現在依賴 CLIP 和 VLM 進行少樣本 (Few-shot) 甚至零樣本 (Zero-shot) 檢測。FS-SAM2：改編 SAM 2 用於少樣本語義分割，極大降低了工業部署的門檻。
AnomalyCLIP & AdaptCLIP：利用 CLIP 的強大泛化能力，直接通過文字描述（如「刮痕」、「破損」）來檢測異常，無需重新訓練模型。
CostFilter-AD：刷新了無監督檢測的上限，證明了不依賴標註也能做好品檢。
目標偵測 (Object Detection)OV-DINO：開放詞彙 (Open-Vocabulary) 檢測的代表。這意味著模型可以檢測出它訓練時沒看過的物體，只要你給它物體名稱。
CountVid：解決了影片中「數數」的問題（如計算車流、人流），實現了「指哪數哪」的互動式計數。

4. 生成式視覺：從「畫圖」到「造人」：生成式 AI (GenAI) 在 2025 年從靜態圖片轉向了動態視訊與數位人。

擴散模型 (Diffusion Models)：速度與品質的平衡： Sana (NVIDIA) 證明了高品質生成不需要慢速，號稱比 FLUX 快 100 倍。
影片生成爆發：阿里開源的 Wan-Video (萬相) 和騰訊的 HunyuanVideo 均支持全模態、長時長的影片生成，打破了 Sora 的閉源壟斷。
虛擬數字人 (Digital Human)：跨越「恐怖谷」的一年。現在的數位人不僅口型對得準，連微表情都能即時生成。
開源神器： HeyGem 和 Open Avatar Chat 讓開發者能本地部署自己的 AI 分身，支持即時語音對話與表情同步。
全身驅動： EchoMimicV2 和 Hallo3 (CVPR 2025) 已經能做到半身甚至全身的動態驅動，讓虛擬人的肢體語言更加自然。

📋 總結與技術選型建議
2025 年的技術選型，AI 的三大感官（腦、口、眼）正在深度融合。
對於技術人與企業主，今年的選型建議遵循**「輕量化、專用化」**

原則：做文檔處理：首選 Modular VLM (如 MinerU2.5) 或 End-to-End VLM (如 dots.ocr)，別盲目上 GPT-4o。
做圖像分割：直接使用 SAM 2 或最新的 SAM 3，並關注針對特定領域（如醫療、遙感）的微調版本。
做影片生成：關注 Wan-Video 與 HunyuanVideo 的開源生態。
做工業檢測：嘗試 CLIP 基於的零樣本方案，能大幅節省收集瑕疵樣本的時間。

想打造「數位員工」 (Complex Task)：採用 Agent 架構，務必關注 MCP 協議與 Anthropic Skills 標準，讓 AI 能標準化地使用工具。

想打造「擬人交互」 (Customer Service)：選擇 STS (Speech-to-Speech) 架構。前端使用 WebRTC 確保低延遲與打斷體驗，後端可接 OpenAI Realtime 或 Gemini Live。
想處理「企業文檔」 (RAG/OCR)：避開昂貴的通用大模型，選擇 MinerU2.5 或 dots.ocr 等專用 VLM 模型，性價比最高。
想保護隱私或降低成本 (Local/Edge)：這些開源 SOTA 模型已經足以構建強大的本地應用大腦用 DeepSeek-R1 或 Llama 3.2
聽覺用 SenseVoice
視覺用 SAM 3

TonTon Huang Ph.D. | Deep Learning 101

搜尋此網誌

2025 年 AI 技術全景年終總結，從「讀懂文檔」+ 「聽說讀寫」+ 「聊天機器人」到「看懂世界」+「實時對話」+「數位勞動力」