避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案 (實戰經驗),那些 AI Agent 要踩的坑

基於正夯的 AI Agent,順手先聊一下所謂的 AI 體驗??

AI Search Has A Citation Problem
哥倫比亞大學這研究報告對八款AI搜尋展開研究,包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot;錯誤率高達了 60%;您有怎樣的使用體驗呢?碰到報告內提到的這幾個問題嗎 ? 像下面截圖了兩個 LLM 的回答,哭笑不得啊 XD


我非常確定上下文提到的該連結與Google的第三方cookie或製造業轉型潮完全無關

  • 大多數無法準確搜尋文章,以至於做了不準確的回答
  • 當所提供答案是錯誤時,會表現出極度自信
  • 付費並不會因為正確率可能較高,錯誤率就比較少
  • 忽略robots.txt協議,存取被禁止的內容
  • 引用的文章通常是錯的版本,引用被聚合或複製的內容
  • 甚至,連結是偽造的或無效的,導致無法驗證資訊來源

LLM (Large Language Model) 大語言模型 相關資訊更新在這
相關的 DEMO 都在 HuggingFace 的 Sace

接著就先來實際測測 各款 AI Agent 是不是真能幫你打工?然後,簡單濃縮一下相關概念,補上試的幾個 Agent 跟 Google 大神最新的 ADK 跟 Open Manus 後,也說說自己的 MCP 體驗和理解:看相關文檔及 DEMO,很棒的應用開發協定,附上連結介紹,AI Agent 開源框架

2023/08 公司添購 RTX 6000 Ada 48 GB * 2 和 A 100 80GB * 4
2024/05 公司添購RTX 6000 Ada 48 GB * 8 * 2


為了測試 AI Agent 效果,用 " 台灣台北的金融壽險業如何應用GenAI " 這個來試試,或者 ..
直接看看這篇 " GenAI 與 LLM 在金融產業的應用分析 "這篇 ?

suna
Open Source Generalist AI Agent 
  • B2C人工智慧市場研究
  • https://github.com/kortix-ai/suna
  • 由Kortix AI 團隊打造,開源且完全免費
  • 符合大多數AI工具左側是對話窗口,右側是提取的內容的交互模式
  • 完全開源的AI 助手,旨在幫助用戶輕鬆完成現實世界中的各種任務。
  • 整合了包括用於網頁瀏覽與資料提取的瀏覽器自動化、文件創建與編輯的文件管理功能、網頁爬取與增強搜尋能力,以及與多種API 和服務整合能力。

GenSpark
自動生成投影片這功能頗炫炮的 XD
從網頁提取生成式AI應用報告的功能,並對提取的內容進行結構化總結
提取的內容以清晰的分點形式呈現,例如「需求進階路線圖」「未來發展趨勢」,並針對每個主題提供具體細節,顯示其在內容整理和呈現上的能力
Genspark 的介面設計直觀,左側是導航欄(包含「項目」「AI 筆記」「聊天生產」「深度研究」等功能),右側是提取與總結的內容,符合大多數AI工具的交互模式
為一個 AI Agent,在內容提取與總結方面表現出色,特別適合需要快速整理資訊的研究人員、分析師或企業用戶。其結構化呈現和邏輯清晰的總結能力,讓用戶能夠快速獲取報告中的核心資訊,操作簡單且穩定性高。


首先是需要邀請碼的,意外剛好拿到,當然就馬上找個題目來試試了
「扣子」(Coze)是字節跳動推出的一款生成式AI平台,旨在幫助用戶和企業進行AI應用開發與生成式內容創作
「扣子」強調低門檻的AI應用開發,特別是Bot開發功能,對於有技術需求的用戶來說非常友好。資料提到「用戶可快速創建Bot並應用於多場景」,顯示其操作簡單
作為字節跳動的AI產品,功能全面且應用場景廣泛,特別適合有技術需求的用戶或企業進行AI應用開發。其Bot開發功能和多語言支援是亮點,顯示其在企業市場和國際市場的潛力


百度心响

「心响」專注於生成式AI應用,支援多種場景(如生成文本、圖像等),並且能夠與用戶進行對話,執行指令,甚至生成視覺內容
「心响」強調簡單直觀的操作,例如一鍵生成圖像或文案,這對於非技術用戶來說很友好。同時,它支援多模態交互(語音、圖文),能滿足不同用戶的習慣
在中文場景中的語義理解和生成能力達到95%以上的領先水平,這表明它在中文NLP(自然語言處理)領域有較強的競爭力
「心响」支援多模態生成(圖文、語音等),並且能夠執行多輪對話,這意味著它可以處理複雜的指令,並在對話中保持上下文連貫性



Agent Development Kit (ADK)
稍微照著做,發現真簡單 XD 值得再好好深入的玩一下
https://github.com/google/adk-python
自己做個資料夾,然後新增 agent.py、__init__.py、.env 這幾個檔案跟內容就可以
接著回到上一層執行 adk web 再打開自己 IP 的 8000 就可以了 XD


Cline
https://github.com/cline/cline 安裝很簡單 ( Download on VS Marketplace 點一點就有了)
再來就是直接設定一下 MCP
很快,但我個人體驗是偶爾會不能運作,不管我選那個 LLM

Model Context Protocol(MCP)
https://github.com/modelcontextprotocol

✅ 然後接著是常看到的說明和介紹:Model Context Protocol(MCP)是一種開放的協議,專門用來讓 AI 模型更輕鬆地連接各種外部數據和工具。可以把它想像成 AI 世界裡的「USB-C」,提供一個標準化的接口,讓不同的數據源、應用程式或工具都能無縫對接,不需要為每種工具寫一套新的規則。 這個協議由 Anthropic 在 2024 年 11 月開源,主要目的是讓 AI 獲取更豐富的上下文資訊,從而提升它的理解能力,讓回應變得更準確、更相關。簡單來說,MCP 就是幫助 AI 更聰明、更靈活地處理來自不同來源的資訊,讓它在各種應用場景下都能表現更好。

✅ MCP 的主要功能可以簡單理解為幫助 AI 更方便、安全地連接外部數據和工具,讓它變得更靈活、更強大。具體來說,它有幾個關鍵特點: 
  • 標準化連接:MCP 設計了一套統一的規則,讓 AI 可以輕鬆對接不同的數據源和工具,減少開發時的麻煩,不用每次都客製化整合。 
  • 即時數據訪問:AI 能透過 MCP 即時取得最新的資訊,比如文件內容、資料庫記錄等,確保回答更準確、決策更可靠。 
  • 讓 AI 使用外部工具:MCP 讓應用程式可以把特定功能(像是 API 呼叫、讀取或寫入文件)「開放」給 AI,讓 AI 直接操作這些工具來完成更複雜的任務。 
  • 靈活的工作流整合:開發者可以用 MCP 把不同的服務或組件串在一起,讓 AI 參與更大範圍的工作流程,比如自動化處理文件、查詢資料庫等。 
  • 安全與隱私:MCP 主要在本地運行,避免把敏感數據傳送到雲端或第三方服務,確保資料安全性。


✅ MCP 的應用場景很廣,主要可以用來讓 AI 連接外部工具、讀取資料、執行任務,提升自動化與協作效率。以下是幾個常見用途: 
  • AI 整合多種工具:讓 AI 直接操作文件、數據庫或 API,比如讀取 Git 版本庫、查詢 Jira 進度、寫入文件等。
  • 即時數據訪問:AI 可以隨時取得最新的市場數據、財務資訊或天氣變化,適合金融分析、預測建議等應用。 
  • 動態更新與通知:當文件或數據變更時,MCP 會主動通知 AI,確保它基於最新資訊回應,不會用舊資料做決策。 
  • 安全通信與隱私保護:MCP 主要在本地運行,避免把敏感資料傳到雲端,確保安全性。 
  • 簡化複雜操作:透過 MCP,AI 可以幫你執行 SQL 查詢、管理專案任務,甚至處理文件內容,減少手動操作的負擔。

✅ 為什麼是 Server (管理數據和工具,回應 Client 請求,確保安全與即時更新)和 Client (AI 模型或應用,向 Server 請求數據或操作工具,以完成特定任務。 )?
  • 資源管理:Server 集中管理數據和工具,Client(AI 模型)則負責請求和使用,確保數據統一且安全。 
  • 靈活擴展:不同 Client 可隨時請求不同數據源或工具,Server 可根據需求擴展,避免 AI 模型臃腫。 安全隔離:Server 運行在受信任環境,避免 AI 直接訪問敏感數據,減少風險。 
  • 標準化溝通:MCP 使用統一協議,確保 AI 模型能與各種 Server 無縫對接。 
  • 交互流程:
    • Client 發送請求(如讀取文件、查詢數據庫)。
    •  Server 處理請求並返回結果。 Server 可根據數據變更,主動通知 Client 更新資訊。
看到這邊可能會覺得,那如果大家做 API 時都照標準不就解決了 ?
 MCP 並非取代 API,而是作為 AI 模型與外部系統的中介層,提供統一接口、提升安全性、簡化開發流程,讓 AI 模型更容易與不同數據源交互。若只需單一 API,MCP 可能顯得多餘;但在整合多個數據源時,MCP 可大幅降低開發與維護成本。

✅ MCP vs 傳統 API 的主要區別 
  • 標準化:MCP 基於 JSON-RPC 2.0,提供統一的接口,讓 AI 模型能以標準化方式與各種外部系統交互,而傳統 API(如 RESTful API)通常需要為不同的數據源單獨設計。 
  • 安全性:MCP 內建能力協商與權限控制,數據可保持本地處理;傳統 API 則需額外實作身份驗證、加密等安全措施。 
  • 靈活性:MCP Server 可管理多個數據源,並統一處理請求,減少模型端的複雜性,而傳統 API 需針對每個外部系統單獨開發與維護。 
  • 動態性:MCP 支援動態通知機制,可主動推送數據變更,而傳統 API 多採用請求-回應模式,較難即時同步數據。 
  • 生態系統支持:MCP 有廣泛的開源支持(如 Anthropic、Spring AI),傳統 API 則多數需自行設計、維護與整合。 
✅ MCP Server 的價值(為何不是多此一舉?) 
  • 簡化 AI 開發:MCP Server 隱藏底層 API 細節,讓 AI 模型只需統一格式請求,而不用適配不同 API。 
  • 集中管理認證與安全:API Key、權限控制等可由 MCP Server 處理,減少模型端的風險。 
  • 適應變更:如果 API 升級,只需修改 MCP Server,而不影響 AI 模型的請求方式。 
  • 抽象化數據源:無論數據來自 API、資料庫或本地文件,MCP Server 都能提供統一接口,減少開發與維護成本。 
✅ MCP 適用場景 vs API,如果使用現成的外部 API?:
  • MCP Server 只需負責調用 API 並轉換數據格式,無須開發新 API。 
  • 如果是內部數據源:仍需設計 API,但 MCP Server 可作為中介,簡化 AI 與數據的交互流程,提升靈活性與安全性。 
如果覺得還是不夠明白,這邊再附上幾個參考的文章


那接著要講到 AI Agent,就不能錯過上週炸裂的 Manus 後的
OpenManus
先補上個整體感受,因為很多是透過搜尋去做的,但搜尋並沒直接找最新的 !?
安裝說實話,現在都做得很簡單了,conda之後直接 pip 就幾乎解決了
git clone https://github.com/mannaandpoem/OpenManus.git 
cd OpenManus
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python main.py
這裡要注意的就是 gemini 的設定
# Global LLM configuration
[llm]
model = "gemini-2.0-flash"
base_url = "https://generativelanguage.googleapis.com/v1beta/openai/"
api_key = "YOUR API KEY = https://aistudio.google.com/apikey"
max_tokens = 8096
temperature = 0.0
然後就這樣跑下去吧 ! 感覺好像真的還不賴 ?
OpenManus 是 MetaGPT 團隊在 Manus 發布後僅用三小時復刻的開源項目,旨在提供類似 Manus 的多智能體框架,供開發者快速上手和客製化開發。MetaGPT 由國內投資的 DeepWisdom(深度賦智)開發的多智能體框架,旨在透過多個智能體的協作成為複雜任務。

短短幾天,一轉眼,已經有了不少搭配的UI,試個幾個吧 OpenManu

用繁體中文整理 Jasen Huang 在 GTC 2025 Keynote 的重點,用 markdown 格式儲存

git clone https://github.com/AlvinWu7/OpenManu
cd OpenManu
pip install -r requirements.txt
pip install flask 
pip install baidusearch 

python flask_app.py

安裝非常快速簡單,然後把OpenManus相關設定再貼到 config/config.toml 就好;記得搜尋要設好


OpenManus-front-end
git clone https://github.com/mannaandpoem/OpenManus/tree/front-end
cd OpenManus
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python main.py
這個則是在官方的一個分支,感覺上用起來是卡在搜尋時貌似會不夠準 ?


OpenManus-WebUI
git clone https://github.com/Shybert-AI/OpenManus-WebUI.git
cd OpenManus-WebUI
pip install -r requirements.txt

cp config/config.example.toml config/config.toml
python app_v3.py

這裡剛好有個因為搜尋問題所造成的結果不夠準確的案例 !



所以接著就是 MetaGPT的官方中文說明文檔

conda create -n metagpt python=3.12
conda activate metagpt
pip install metagpt

官方文件裡也有說明可以再安裝一些子模塊,或者直接 docker 安裝
  • RAG, pip install 'metagpt[rag]'. 用途:用於基於RAG(Retrieval-Augmented Generation,檢索增強生成)的系統,結合多個LLM(大語言模型)和向量儲存技術。 
  • OCR, pip install 'metagpt[ocr]'. 用途:用於光學字元辨識(OCR)任務,辨識並擷取影像中的文字。 
  • search-ddg, pip install 'metagpt[search-ddg]'. 用途:用於DuckDuckGo 搜尋功能。 
  • search-google, pip install 'metagpt[search-google]'. 用途:用於與Google API(如Google 搜尋API)進行互動。 
  • selenium, pip install 'metagpt[selenium]'. 用途:用於自動化瀏覽器操作和網頁抓取。
exp: 404 model/gemini-pro is not found for API version v1beta
本來以為很好裝的,結果首先就卡到了這個,看起來是因為不知道 gemini 1.0 pro 已經停用了 ?

pip install git+https://github.com/geekan/MetaGPT
只好安裝開發版了

Model gemini-2.0-flash not found in TOKEN_COSTS


結果又給我出現這問題,一看是沒有把 gemini 2.0 flash 加進去

Commands outputs: Command browser not found.
Commands outputs: Command web_search not found.
Commands outputs: Command duckduckgo_search.search not found.
Commands outputs: Command google_search.search not found.
Commands outputs: Command browser_search not found.

以為一切都正常時,噴了一連串問題,實在有點不知怎解了,或許直接 docker 安裝應該較好?

docker pull metagpt/metagpt:latest mkdir -p /opt/metagpt/{config,workspace} docker run --rm metagpt/metagpt:latest cat /app/metagpt/config/config2.yaml > /opt/metagpt/config/config2.yaml vim /opt/metagpt/config/config2.yaml # 修改配置 docker run --name metagpt -d \ --privileged \ -v /opt/metagpt/config/config2.yaml:/app/metagpt/config/config2.yaml \ -v /opt/metagpt/workspace:/app/metagpt/workspace \ metagpt/metagpt:latest docker exec -it metagpt /bin/bash $ metagpt "Write a cli snake game"

只能說問題還是蠻多的 !!! 因為一樣跑到這個問題 ! 這個開源應該跟我不合 XD
exp: 404 model/gemini-pro is not found for API version v1beta

下面還有幾個感覺不錯的,盡快再持續補上效果演示和體驗

LangManus
這個我想直接看 DEMO 是個比較不錯的體驗?因為看 github 的 issue 感覺還有不少問題 XD
默默的就整個不見嘞 ?


OWL

官方 github 有蠻清楚的 conda 安裝說明
git clone https://github.com/camel-ai/owl.git
cd owl/
pip install -e .
然後,裝好 owl/.env 會有些地方要設定,gemini 也有 open ai 相容性
https://ai.google.dev/gemini-api/docs/openai?hl=zh-tw
Google Search API 就是用 Google可程式搜尋引擎,chunker 跟 firecrawl 就去註冊拿到 key
可惜看來一堆奇怪的問題,連簡單的 import 都沒設計好,然後 gemini 也看不到支援的方法
在這樣的目錄結構下
/home/tonton/TEST/owl/ 
                            ├── owl/ │   
                                     ├── utils/ │   
                                     │   ├── __init__.py │   
                                     │   ├── run_society.py

不管怎樣都是出,應該又是跟我不合的開源 XD
from owl.utils import run_society

No module named 'owl.utils'




UI-TARS



autoMate



OmniParser



至於文件裡提到支援很多 LLM API,像是這兩天炸裂的 Google AI Studio 就是 Gemini 的 KEY 在這
順便附上一張用 Gemini 2.0 Flash (Image Generation) Experimental 改的圖