2025 年 AI 技術全景年終總結,從「讀懂文檔」+ 「聽說讀寫」+ 「聊天機器人」到「看懂世界」+「實時對話」+「數位勞動力」

🚀 2025 AI 技術全景年終總結:從「被動對話」到「主動做事的數位勞動力」
從「讀懂文檔」+ 「聽說讀寫」+ 「聊天機器人」到「看懂世界」+「實時對話」+「數位勞動力」

  • AI 已經從「讀萬卷書」(預訓練)進化到「行萬里路」(Agent 實踐)。現在是時候讓你的 AI 走出對話框,去真實世界裡「幹活」了。
  • 語音技術已經從「識別文字」進化到「理解對話」。現在正是構建下一代語音交互應用的最佳時機。
  • 2025 年,AI 的眼睛不僅看得更清楚(分割/偵測),看得更懂(OCR/VLM),還學會了閉上眼睛想像世界(生成式 AI)。

2023 是大模型的「爆發年」,2024 是「應用落地年」,那 2025 絕對是「Agent (智能體) 與全模態行動年」。今年的技術分水嶺非常明顯:
  • 在大腦層面 (LLM): 它學會了使用工具 (MCP/Skills) 與思考 (Reasoning)。
    從「聊天機器人」到「數位勞動力」
  • 在交互層面 (Speech): 它告別了機械式的轉錄,進入了情感豐富的實時對話 (STS)。
    從「聽說讀寫」到「實時對話」
  • 在感知層面 (Vision): 不再只是認字或畫框,而是能讀懂複雜文檔並看清 (VLM/SAM 3)。
    從「讀懂文檔」到「看懂世界」

🏗️ 第一部分:大腦與決策 (LLM & Agents)

https://deep-learning-101.github.io/Large-Language-Model

趨勢關鍵詞:Agent 生態、工具標準化、慢思考

2025 年最大的變革在於 AI Agent 的標準化。AI 不再只是陪聊,而是能操控瀏覽器、寫代碼、查資料的數位員工。技術主旋律也不再只是「誰的模型考試分數高」,而是「誰的模型能幫我把工作做完」。從 Manus 的自動化 (Manus is entering the next chapter: we’re joining forces with Meta to take general agents to the next level.)、DeepResearch 的深度研究,到 Anthropic 推出的 MCP 與 Skills 標準,AI 正從「大腦」長出「手腳」。

1. Agent 的「手腳」:連接與行動的標準化

過去開發 Agent 需要寫大量膠水代碼 (Glue Code),今年兩大標準解決了這個問題:

  • 🔌 連接標準:MCP (Model Context Protocol)

    • 概念: 這是 AI 時代的 USB 接口。只要資料源(如 GitHub, Slack, 資料庫)支援 MCP,任何 AI 模型都能直接讀取並操作。

    • 現狀: 生態大爆發,從 GitMCPFastAPI-MCP,開發者可秒級構建工具。

  • 🛠️ 行動標準:Anthropic Skills (新趨勢)

    • 概念: 這是 AI 的「技能包」。MCP 解決了「連接」,Skills 則解決了「如何操作」。

    • 意義: 它定義了 AI 執行任務(如「瀏覽網頁」、「執行 SQL」)的最佳實踐。開發者無需再用 Prompt 痛苦調教,直接掛載 SQL Skill,AI 即具備專家級操作能力。

  • 🚀 代表性 Agent 專案

    • DeepResearch 類: Tongyi DeepResearch 和 DeepSearcher 讓 AI 能像研究生一樣,自主搜尋數百篇文獻並寫出深度報告。
    • 操作類: OpenManus 和 Gemini Computer Use 讓 AI 能直接控制滑鼠鍵盤,操作網頁完成訂票、填表等繁瑣工作。


2. 推理模型 (Reasoning):慢思考的勝利

AI「慢下來思考」比「快問快答」更重要。

  • DeepSeek-R1 開啟了強化學習 (RL) 激發推理能力的風潮,強調「思考過程 (Chain of Thought)」。

  • NVIDIA Llama-Nemotron 系列則證明了開源模型在數學與邏輯推導上,也能追上閉源巨頭。


3. 端側小模型 (SLM) 的逆襲

AI 走向兩極化,雲端更強,端側更小。Phi-4MobileLLMSmolLM2 證明了 3B 參數以下的模型,足以在手機端勝任日常助理,Smolagents 框架更讓本地設備也能跑得動 Agent。

📱 SLM (小型語言模型) 的逆襲

  • 能跑才是硬道理: Phi-4MobileLLM 和 SmolLM2 證明了 3B (30億) 參數以下的模型,在經過高品質數據訓練後,足以勝任手機端的日常助理任務。

  • Smolagents: Hugging Face 推出的極簡框架,讓開發者在本地小模型上也能跑得動 Agent。

👁️ 聽說讀寫全能 (Omni)

  • 語音大模型: TEN Agent 和 LongCat-Flash-Omni 實現了「端到端」的語音交互。AI 不再是「語音轉文字 -> 思考 -> 文字轉語音」,而是直接聽懂語氣、笑聲,並即時回應,延遲低至人類對話水準。

  • 視覺理解: InternVL 和 Qwen2.5-VL 等模型讓 AI 能看懂複雜的圖表、儀表板甚至影片,為機器人視覺打下基礎。

4. 開發門檻的崩塌:人人都是 AI 工程師

2025 年的工具鏈已經成熟到「令人髮指」的地步,微調和應用開發的門檻被極限拉低。

  • 微調平民化 Unsloth 和 LLaMA Factory 讓微調大模型不再需要昂貴的 H100 集群,普通消費級顯卡就能在家訓練自己的專屬模型。

  • 工作流視覺化 DifyFlowise 和 Labgflow 讓不懂程式碼的用戶,也能通過「拉積木」的方式,串接 GPT-4、本地知識庫 (RAG) 和外部 API,構建複雜的企業級應用。

🗣️ 第二部分:交互與介面 (Speech AI)

https://deep-learning-101.github.io/Speech-Processing

趨勢關鍵詞:端到端 (STS)、實時對話、情感交互

2025 年是語音 AI (Speech AI) 的分水嶺。過去我們關注的是「識別有多準 (ASR)」「合成有多像 (TTS)」,而今年的主旋律則轉向了 「端到端實時交互 (Speech-to-Speech)」

1. 架構變革:告別流水線

過去的 語音 (ASR) ➡ 文本 ➡ 大語言模型 (LLM) ➡ 文本 ➡ 語音 (TTS) 流水線 (Pipeline) 架構雖然模組清晰,但延遲高且丟失情感。

  • 新標準 STS (Speech-to-Speech): 一個多模態模型直接「聽」並直接「說」。

  • 體驗升級: 實現了超低延遲,並保留情感(如語氣、笑聲)。支援 打斷機制 (Interruption),用戶隨時插話,AI 能像真人一樣即時反應。


2. 商業巨頭爭霸:實時 API 三足鼎立

  • 商業三巨頭: OpenAI Realtime API 生態最全;Google Gemini Live 原生音頻情感細膩;AWS Nova Sonic 抗噪強且穩定。

💡 提示: 在傳輸層面上,WebRTC 已成為客戶端(瀏覽器/App)的首選,因為它能處理網絡抖動並保證低延遲;而 WebSocket 則更多用於服務器對服務器的通訊。

3. 開源模型爆發:ASR 與 TTS 的百家爭鳴

雖然商業 API 很強,但開源社群在 2025 年同樣交出了驚人的成績單。如果你需要私有化部署或節省成本,以下是今年的必備軍火庫:

🎙️ ASR (語音識別):超越 Whisper

OpenAI 的 Whisper 依然是標竿,但挑戰者眾多:

  • FunASR (阿里達摩院): 2025 推出的 SenseVoice 和 Fun-ASR,在中文識別和計算效率上甚至超越了 Whisper,且支持情緒與事件檢測(如掌聲、笑聲)。

  • NVIDIA Parakeet/Canary: 主打極致速度,號稱「1秒轉錄1小時音訊」,適合大規模數據處理。

  • FireRedASR / MedASR: 針對特定領域(如醫療、語音助理)的優化模型開始湧現。

🗣️ TTS (語音合成):零樣本克隆 (Zero-Shot Cloning)

今年的 TTS 關鍵詞是「克隆」與「可控性」:

  • Fish Speech: 2025 當紅炸子雞,支持多語言克隆,效果驚艷,且社區生態活躍。

  • GPT-SoVITS: 小樣本訓練的神器,只需 1 分鐘素材就能訓練出高品質模型,適合個人創作者。

  • CosyVoice (阿里通義): 3秒錄音複製 9 種語言,展現了強大的跨語言能力。

  • ChatTTS: 專注於對話場景,會主動加入「嗯...」、「那個...」等口語特徵,擬真度極高。

🛠️ 語音增強與分離 (Cocktail Party Problem)

這是不起眼但關鍵的技術。ClearVoice 等項目在今年實現了「一站式處理」,能同時完成降噪、人聲分離和提取。這對於在嘈雜環境下(如工廠、戶外)落地的語音應用至關重要。

4. 實戰開發指南:如何選擇?

面對這麼多工具,2025 年的技術選型建議如下:

場景一:我要做一個「像真人一樣」的 AI 語音客服

  • 方案: 選擇 STS 架構。

  • 工具: OpenAI Realtime API 或 Google Gemini Live。

  • 傳輸: 使用 WebRTC 連接前端,確保用戶說話時能即時打斷 AI。

場景二:我要做影片自動字幕或會議記錄

  • 方案: 選擇高精度的 ASR 模型。

  • 工具:

  • 追求中文準度與標點:FunASR (SenseVoice)。

  • 追求多語言通用與英文:Whisper V3。

  • 追求極致速度:NVIDIA Parakeet。

場景三:我要做 AI 數字人或有聲書

  • 方案: 選擇高表現力的 TTS 模型。

  • 工具:

  • 需要快速克隆名人聲音:GPT-SoVITS。

  • 需要長文本朗讀且穩定:Fish Speech 或 CosyVoice。

  • 需要極致自然的對話感:ChatTTS。

場景四:我想快速搭建原型 (Prototype)

  • 神器推薦: FastRTC (Hugging Face 出品)。這是一個 Python 庫,能讓你用極少的代碼,快速搭建起基於 WebRTC 的實時語音 AI Demo,並直接集成 Gradio 介面。

5. 未來展望

2025 年我們看到了語音技術的兩極化發展:

  1. 大一統 (Unification): 像 Qwen3-TTS 和 Gemini 這樣的大模型,正在嘗試將「理解」與「生成」徹底融合,未來的語音交互將不再區分 ASR 和 TTS,而是一個整體的認知過程。

  2. 極致輕量 (Edge AI): 像 KittenTTS (<25MB) 和 Sherpa-onnx 這樣的項目,致力於讓強大的語音能力在手機甚至嵌入式設備上離線運行。

👁️ 第三部分:感知與創造 (Computer Vision)

https://deep-learning-101.github.io//Computer-Vision

趨勢關鍵詞:文檔理解 (OCR)、萬物分割 (SAM 3)、生成式視覺

2025 年是電腦視覺 (Computer Vision, CV) 「去邊界化」的一年。過去我們將 CV 拆解為 OCR、偵測、分割等獨立任務,但今年,隨著多模態大模型 (VLM) 的介入,這些界線正在消失。

1. OCR 文檔解析:大模型時代的「四國爭霸」:2025 年的 OCR 技術不再只是「認字」,而是「文檔理解」。根據最新的技術盤點,目前的 OCR 解決方案已演化出四種主流架構,開發者可依據成本與精度需求,參考 OmniDocBench 評分進行選擇。


OCR 已演化為「文檔理解」,主流架構分為四類:

  • 傳統流水線 (Pipeline): 經典的「檢測 → 識別 → 版面分析」分步處理。如 PP-StructureV3、PaddleOCR-V5、MinerU2-pipeline,成本低但鏈路太長誤差易累積。

  • 模組化專用 VLM (兩段式):PaddleOCR-VL、MonkeyOCR-1.5,MinerU2.5採用「先全局後局部」策略,先看縮略圖定版面,再裁切原圖進 ViT 識別,精準度與算力消耗達到完美平衡。

  • 端到端專用 VLM (一段式):不需要切分版面,直接「看圖說話」的輕量級模型;dots.ocr (1.7B 參數)、HunyuanOCR (騰訊混元)Deepseek-OCR,引入了多解析度視覺編碼器與 MoE 解碼器,能將長文檔圖片壓縮成極少的 Token,實現 10-20 倍的無損壓縮。

  • 通用 VLM: 效果上限最高,但 GPU 成本極高且吞吐量低,適合處理極度複雜的非結構化文檔直接用 GPT-4o 識別,效果好但太貴。

結論: 在 OCR 領域,開源的小型專用模型(如 dots.ocr)往往比通用大模型更高效。


2. 萬物分割:SAM 3 的統治:如果說 OCR 是讓電腦「讀書」,那分割 (Segmentation) 就是讓電腦「看清物體輪廓」。2025 年,Meta 的 SAM (Segment Anything Model) 系列依然統治著這個領域

  • SAM 2 的成熟: Meta 發布的 SAM 2 解決了「視頻分割」的難題,引入了記憶機制,能夠在影片中持續追蹤變形的物體。相關變體如 SAM2Long 更進一步優化了長視頻的處理能力。

  • SAM 3 登場: 繼 SAM 2 解決視頻分割後,SAM 3 (facebookresearch/sam3) 進一步統一了圖像與視頻建模,提升了對遮擋物體和複雜邊緣的理解,穩坐 SOTA 寶座。

  • 工業應用: RemoteSAM 讓衛星圖也能「指哪切哪」;異常檢測則轉向 CLIP 基於的零樣本方案,無需大量瑕疵樣本訓練。

3. 工業感知:異常檢測與目標偵測的融合:在工廠與安防領域,AI 的任務是「找不同」和「數東西」。2025 年的趨勢是:從「訓練」走向「提示 (Prompting)」。
  • 異常檢測 (Anomaly Detection):過去需要大量瑕疵圖片訓練,現在依賴 CLIP 和 VLM 進行少樣本 (Few-shot) 甚至零樣本 (Zero-shot) 檢測。
    • FS-SAM2: 改編 SAM 2 用於少樣本語義分割,極大降低了工業部署的門檻。
    • AnomalyCLIP & AdaptCLIP: 利用 CLIP 的強大泛化能力,直接通過文字描述(如「刮痕」、「破損」)來檢測異常,無需重新訓練模型。
    • CostFilter-AD: 刷新了無監督檢測的上限,證明了不依賴標註也能做好品檢。
  • 目標偵測 (Object Detection)
    • OV-DINO: 開放詞彙 (Open-Vocabulary) 檢測的代表。這意味著模型可以檢測出它訓練時沒看過的物體,只要你給它物體名稱。
    • CountVid: 解決了影片中「數數」的問題(如計算車流、人流),實現了「指哪數哪」的互動式計數。

4. 生成式視覺:從「畫圖」到「造人」:生成式 AI (GenAI) 在 2025 年從靜態圖片轉向了動態視訊與數位人。

  • 擴散模型 (Diffusion Models):速度與品質的平衡: Sana (NVIDIA) 證明了高品質生成不需要慢速,號稱比 FLUX 快 100 倍。
  • 影片生成爆發: 阿里開源的 Wan-Video (萬相) 和騰訊的 HunyuanVideo 均支持全模態、長時長的影片生成,打破了 Sora 的閉源壟斷。
  • 虛擬數字人 (Digital Human):跨越「恐怖谷」的一年。現在的數位人不僅口型對得準,連微表情都能即時生成。
  • 開源神器: HeyGem 和 Open Avatar Chat 讓開發者能本地部署自己的 AI 分身,支持即時語音對話與表情同步。
  • 全身驅動: EchoMimicV2 和 Hallo3 (CVPR 2025) 已經能做到半身甚至全身的動態驅動,讓虛擬人的肢體語言更加自然。

📋 總結與技術選型建議

2025 年的技術選型,AI 的三大感官(腦、口、眼)正在深度融合。
對於技術人與企業主,今年的選型建議遵循**「輕量化、專用化」**原則:
  • 做文檔處理: 首選 Modular VLM (如 MinerU2.5) 或 End-to-End VLM (如 dots.ocr),別盲目上 GPT-4o。
  • 做圖像分割: 直接使用 SAM 2 或最新的 SAM 3,並關注針對特定領域(如醫療、遙感)的微調版本。
  • 做影片生成: 關注 Wan-Video 與 HunyuanVideo 的開源生態。
  • 做工業檢測: 嘗試 CLIP 基於的零樣本方案,能大幅節省收集瑕疵樣本的時間。

  • 想打造「數位員工」 (Complex Task):採用 Agent 架構,務必關注 MCP 協議Anthropic Skills 標準,讓 AI 能標準化地使用工具。
  • 想打造「擬人交互」 (Customer Service):選擇 STS (Speech-to-Speech) 架構。前端使用 WebRTC 確保低延遲與打斷體驗,後端可接 OpenAI Realtime 或 Gemini Live。
  • 想處理「企業文檔」 (RAG/OCR):避開昂貴的通用大模型,選擇 MinerU2.5dots.ocr 等專用 VLM 模型,性價比最高。
  • 想保護隱私或降低成本 (Local/Edge):這些開源 SOTA 模型已經足以構建強大的本地應用
    • 大腦用 DeepSeek-R1Llama 3.2
    • 聽覺用 SenseVoice
    • 視覺用 SAM 3