那些 AI Agent 要踩的坑

簡單濃縮一下相關概念,還有之前試了 Manus 後,補充一下幾個 AI Agent 跟 Cline

也說說自己的 MCP 體驗:看相關文檔及 DEMO,很棒的應用開發協定,但還不太穩定

LLM (Large Language Model) 大語言模型 相關資訊更新在這
點下方專案標題,體驗效果演示,或看附上的連結介紹

2023/08 公司添購 RTX 6000 Ada 48 GB * 2 和 A 100 80GB * 4
2024/05 公司添購RTX 6000 Ada 48 GB * 8 * 2

Cline
https://github.com/cline/cline 安裝很簡單 ( Download on VS Marketplace 點一點就有了)
再來就是直接設定一下 MCP
很快,但我個人體驗是偶爾會不能運作,不管我選那個 LLM

Model Context Protocol(MCP)
https://github.com/modelcontextprotocol

✅ 然後接著是常看到的說明和介紹:Model Context Protocol(MCP)是一種開放的協議,專門用來讓 AI 模型更輕鬆地連接各種外部數據和工具。可以把它想像成 AI 世界裡的「USB-C」,提供一個標準化的接口,讓不同的數據源、應用程式或工具都能無縫對接,不需要為每種工具寫一套新的規則。 這個協議由 Anthropic 在 2024 年 11 月開源,主要目的是讓 AI 獲取更豐富的上下文資訊,從而提升它的理解能力,讓回應變得更準確、更相關。簡單來說,MCP 就是幫助 AI 更聰明、更靈活地處理來自不同來源的資訊,讓它在各種應用場景下都能表現更好。

✅ MCP 的主要功能可以簡單理解為幫助 AI 更方便、安全地連接外部數據和工具,讓它變得更靈活、更強大。具體來說,它有幾個關鍵特點: 
  • 標準化連接:MCP 設計了一套統一的規則,讓 AI 可以輕鬆對接不同的數據源和工具,減少開發時的麻煩,不用每次都客製化整合。 
  • 即時數據訪問:AI 能透過 MCP 即時取得最新的資訊,比如文件內容、資料庫記錄等,確保回答更準確、決策更可靠。 
  • 讓 AI 使用外部工具:MCP 讓應用程式可以把特定功能(像是 API 呼叫、讀取或寫入文件)「開放」給 AI,讓 AI 直接操作這些工具來完成更複雜的任務。 
  • 靈活的工作流整合:開發者可以用 MCP 把不同的服務或組件串在一起,讓 AI 參與更大範圍的工作流程,比如自動化處理文件、查詢資料庫等。 
  • 安全與隱私:MCP 主要在本地運行,避免把敏感數據傳送到雲端或第三方服務,確保資料安全性。


✅ MCP 的應用場景很廣,主要可以用來讓 AI 連接外部工具、讀取資料、執行任務,提升自動化與協作效率。以下是幾個常見用途: 
  • AI 整合多種工具:讓 AI 直接操作文件、數據庫或 API,比如讀取 Git 版本庫、查詢 Jira 進度、寫入文件等。
  • 即時數據訪問:AI 可以隨時取得最新的市場數據、財務資訊或天氣變化,適合金融分析、預測建議等應用。 
  • 動態更新與通知:當文件或數據變更時,MCP 會主動通知 AI,確保它基於最新資訊回應,不會用舊資料做決策。 
  • 安全通信與隱私保護:MCP 主要在本地運行,避免把敏感資料傳到雲端,確保安全性。 
  • 簡化複雜操作:透過 MCP,AI 可以幫你執行 SQL 查詢、管理專案任務,甚至處理文件內容,減少手動操作的負擔。

✅ 為什麼是 Server (管理數據和工具,回應 Client 請求,確保安全與即時更新)和 Client (AI 模型或應用,向 Server 請求數據或操作工具,以完成特定任務。 )?
  • 資源管理:Server 集中管理數據和工具,Client(AI 模型)則負責請求和使用,確保數據統一且安全。 
  • 靈活擴展:不同 Client 可隨時請求不同數據源或工具,Server 可根據需求擴展,避免 AI 模型臃腫。 安全隔離:Server 運行在受信任環境,避免 AI 直接訪問敏感數據,減少風險。 
  • 標準化溝通:MCP 使用統一協議,確保 AI 模型能與各種 Server 無縫對接。 
  • 交互流程:
    • Client 發送請求(如讀取文件、查詢數據庫)。
    •  Server 處理請求並返回結果。 Server 可根據數據變更,主動通知 Client 更新資訊。
看到這邊可能會覺得,那如果大家做 API 時都照標準不就解決了 ?
 MCP 並非取代 API,而是作為 AI 模型與外部系統的中介層,提供統一接口、提升安全性、簡化開發流程,讓 AI 模型更容易與不同數據源交互。若只需單一 API,MCP 可能顯得多餘;但在整合多個數據源時,MCP 可大幅降低開發與維護成本。

✅ MCP vs 傳統 API 的主要區別 
  • 標準化:MCP 基於 JSON-RPC 2.0,提供統一的接口,讓 AI 模型能以標準化方式與各種外部系統交互,而傳統 API(如 RESTful API)通常需要為不同的數據源單獨設計。 
  • 安全性:MCP 內建能力協商與權限控制,數據可保持本地處理;傳統 API 則需額外實作身份驗證、加密等安全措施。 
  • 靈活性:MCP Server 可管理多個數據源,並統一處理請求,減少模型端的複雜性,而傳統 API 需針對每個外部系統單獨開發與維護。 
  • 動態性:MCP 支援動態通知機制,可主動推送數據變更,而傳統 API 多採用請求-回應模式,較難即時同步數據。 
  • 生態系統支持:MCP 有廣泛的開源支持(如 Anthropic、Spring AI),傳統 API 則多數需自行設計、維護與整合。 
✅ MCP Server 的價值(為何不是多此一舉?) 
  • 簡化 AI 開發:MCP Server 隱藏底層 API 細節,讓 AI 模型只需統一格式請求,而不用適配不同 API。 
  • 集中管理認證與安全:API Key、權限控制等可由 MCP Server 處理,減少模型端的風險。 
  • 適應變更:如果 API 升級,只需修改 MCP Server,而不影響 AI 模型的請求方式。 
  • 抽象化數據源:無論數據來自 API、資料庫或本地文件,MCP Server 都能提供統一接口,減少開發與維護成本。 
✅ MCP 適用場景 vs API,如果使用現成的外部 API?:
  • MCP Server 只需負責調用 API 並轉換數據格式,無須開發新 API。 
  • 如果是內部數據源:仍需設計 API,但 MCP Server 可作為中介,簡化 AI 與數據的交互流程,提升靈活性與安全性。 
如果覺得還是不夠明白,這邊再附上幾個參考的文章

那接著要講到 AI Agent,就不能錯過上週炸裂的 Manus 後的
OpenManus
先補上個整體感受,因為很多是透過搜尋去做的,但搜尋並沒直接找最新的 !?
安裝說實話,現在都做得很簡單了,conda之後直接 pip 就幾乎解決了
git clone https://github.com/mannaandpoem/OpenManus.git 
cd OpenManus
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python main.py
這裡要注意的就是 gemini 的設定
# Global LLM configuration
[llm]
model = "gemini-2.0-flash"
base_url = "https://generativelanguage.googleapis.com/v1beta/openai/"
api_key = "YOUR API KEY = https://aistudio.google.com/apikey"
max_tokens = 8096
temperature = 0.0
然後就這樣跑下去吧 ! 感覺好像真的還不賴 ?
OpenManus 是 MetaGPT 團隊在 Manus 發布後僅用三小時復刻的開源項目,旨在提供類似 Manus 的多智能體框架,供開發者快速上手和客製化開發。MetaGPT 由國內投資的 DeepWisdom(深度賦智)開發的多智能體框架,旨在透過多個智能體的協作成為複雜任務。

短短幾天,一轉眼,已經有了不少搭配的UI,試個幾個吧 OpenManu

用繁體中文整理 Jasen Huang 在 GTC 2025 Keynote 的重點,用 markdown 格式儲存
git clone https://github.com/AlvinWu7/OpenManu
cd OpenManu
pip install -r requirements.txt
pip install flask 
pip install baidusearch 

python flask_app.py
安裝非常快速簡單,然後把OpenManus相關設定再貼到 config/config.toml 就好;記得搜尋要設好


OpenManus-front-end
git clone https://github.com/mannaandpoem/OpenManus/tree/front-end
cd OpenManus
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python main.py
這個則是在官方的一個分支,感覺上用起來是卡在搜尋時貌似會不夠準 ?


OpenManus-WebUI
git clone https://github.com/Shybert-AI/OpenManus-WebUI.git
cd OpenManus-WebUI
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python app_v3.py
這裡剛好有個因為搜尋問題所造成的結果不夠準確的案例 !



所以接著就是 MetaGPT的官方中文說明文檔

conda create -n metagpt python=3.12
conda activate metagpt
pip install metagpt

官方文件裡也有說明可以再安裝一些子模塊,或者直接 docker 安裝
  • RAG, pip install 'metagpt[rag]'. 用途:用於基於RAG(Retrieval-Augmented Generation,檢索增強生成)的系統,結合多個LLM(大語言模型)和向量儲存技術。 
  • OCR, pip install 'metagpt[ocr]'. 用途:用於光學字元辨識(OCR)任務,辨識並擷取影像中的文字。 
  • search-ddg, pip install 'metagpt[search-ddg]'. 用途:用於DuckDuckGo 搜尋功能。 
  • search-google, pip install 'metagpt[search-google]'. 用途:用於與Google API(如Google 搜尋API)進行互動。 
  • selenium, pip install 'metagpt[selenium]'. 用途:用於自動化瀏覽器操作和網頁抓取。
exp: 404 model/gemini-pro is not found for API version v1beta
本來以為很好裝的,結果首先就卡到了這個,看起來是因為不知道 gemini 1.0 pro 已經停用了 ?

pip install git+https://github.com/geekan/MetaGPT
只好安裝開發版了

Model gemini-2.0-flash not found in TOKEN_COSTS


結果又給我出現這問題,一看是沒有把 gemini 2.0 flash 加進去

Commands outputs: Command browser not found.
Commands outputs: Command web_search not found.
Commands outputs: Command duckduckgo_search.search not found.
Commands outputs: Command google_search.search not found.
Commands outputs: Command browser_search not found.

以為一切都正常時,噴了一連串問題,實在有點不知怎解了,或許直接 docker 安裝應該較好?

docker pull metagpt/metagpt:latest mkdir -p /opt/metagpt/{config,workspace} docker run --rm metagpt/metagpt:latest cat /app/metagpt/config/config2.yaml > /opt/metagpt/config/config2.yaml vim /opt/metagpt/config/config2.yaml # 修改配置 docker run --name metagpt -d \ --privileged \ -v /opt/metagpt/config/config2.yaml:/app/metagpt/config/config2.yaml \ -v /opt/metagpt/workspace:/app/metagpt/workspace \ metagpt/metagpt:latest docker exec -it metagpt /bin/bash $ metagpt "Write a cli snake game"

只能說問題還是蠻多的 !!! 因為一樣跑到這個問題 ! 這個開源應該跟我不合 XD
exp: 404 model/gemini-pro is not found for API version v1beta

下面還有幾個感覺不錯的,盡快再持續補上效果演示和體驗

LangManus
這個我想直接看 DEMO 是個比較不錯的體驗?因為看 github 的 issue 感覺還有不少問題 XD


OWL

官方 github 有蠻清楚的 conda 安裝說明
git clone https://github.com/camel-ai/owl.git
cd owl/
pip install -e .
然後,裝好 owl/.env 會有些地方要設定,gemini 也有 open ai 相容性
https://ai.google.dev/gemini-api/docs/openai?hl=zh-tw
Google Search API 就是用 Google可程式搜尋引擎,chunker 跟 firecrawl 就去註冊拿到 key
可惜看來一堆奇怪的問題,連簡單的 import 都沒設計好,然後 gemini 也看不到支援的方法
在這樣的目錄結構下
/home/tonton/TEST/owl/ 
                            ├── owl/ │   
                                     ├── utils/ │   
                                     │   ├── __init__.py │   
                                     │   ├── run_society.py

不管怎樣都是出,應該又是跟我不合的開源 XD
from owl.utils import run_society

No module named 'owl.utils'




UI-TARS



autoMate



OmniParser



至於文件裡提到支援很多 LLM API,像是這兩天炸裂的 Google AI Studio 就是 Gemini 的 KEY 在這
順便附上一張用 Gemini 2.0 Flash (Image Generation) Experimental 改的圖