解析探索大型語言模型：模型發展歷史、訓練及微調技術的 VRAM 估算

一開始這是篇大型語言模型早期百花盛開的文章，但2025年05月06日為了Gemini 2.5 Pro Preview 05-06 更新了

Build rich, interactive web apps with an updated Gemini 2.5 Pro

Google 於 2025 年 5 月 6 日發布 Gemini 2.5 Pro Preview（I/O 版，模型 ID：gemini-2.5-pro-preview-05-06），提前於原訂的 Google I/O 2025（5 月 20 日至 21 日）亮相。此舉是因開發者和用戶的強烈正面反饋。其中以下幾點值得關注：

程式設計能力：在構建互動式網頁應用方面表現卓越，超越 Anthropic 的 Claude 3.7 Sonnet，在 WebDev Arena 排行榜上以 147 Elo 分領先，同時在 LMArena 程式設計任務中排名第一；特別是在前端/UI 和網頁應用開發方面。開發者讚揚其速度和品質，有人稱其為程式開發的「啟示」。
多模態功能：支援 100 萬 token 的上下文窗口，可處理大型數據集，如長達一小時的影片或龐大程式碼庫。全新影片轉程式碼功能可從 YouTube 影片創建互動應用，在 VideoMME 基準測試中得分 84.8%。將影片內容轉化為功能性應用的能力展示了其先進的多模態推理，與 OpenAI 的 GPT-4.1 或 Meta 的 Llama 4 相比獨樹一幟。
可訪問性：透過 Google AI Studio、Vertex AI 及 Gemini 應用程式（含 Canvas 協作應用開發功能）提供服務。個人用戶可免費使用，開發者則有付費擴展選項；促進獨立開發者和愛好者的廣泛採用。
開發者反饋：改進了函數調用錯誤和觸發率問題。應用案例包括生成樣式化 UI 元件、從影片創建學習應用，以及開發複雜的代理工作流程。
開發者對其速度（例如 20 分鐘翻譯 268 頁 PDF）表示驚嘆，高級工程師則因其效率感到「危機」。然而，偶爾的不可靠性仍是關鍵任務的障礙。

https://github.com/Deep-Learning-101 https://huggingface.co/DeepLearning101

OK ! 寫像上面的大模型評論，真的非常簡單，但到底可以怎樣用，及用了的效果？一直以來都很想好好發揮那幾年辦的 Deep Learning 101 的活動影片，特別是想起每個月總有那麼一個週五，我會在台北101因為佈署直播環境跟收拾打掃，搞到清晨3-4點才騎 YouBike 回家；還有一群快樂小夥伴們對那整本 Deep Learning Book 以及時下流行的論文分享；然後不能沒有然後的想著是不是能

整合直播影片做帶時間戳的逐字稿和語音辨識以及PDF跟投影片重點摘要再MCP到Line的 Q&A？

初步效果就像下面的圖，但是整個工程偏耗大，雖然我有極大的熱忱想把這件事做完，BUT ...

Gemini 2.5 Pro Preview 05-06 真的太神，瞬間再次體驗到打完收工的感覺 XD

這邊就先附上一些操作過程 ! 留言、按贊、分享讓我知道，這會對你有幫助 ? XD

首先是先對 Deep Learning Book 的 PDF 檔做重點摘要 (這可能還不夠封神)

再來則是對影片做語音辨識跟逐字稿 (這個就炸裂了)

當然還要影片重點摘要的 Markdown 檔

用過 whisper 做語音的應該都會很有感

到這邊，真的只能說 Google 大神始終不讓人失望啊 !!!!

接著先附圖再繼續來瞭解一下很常聽到的 XX B 的這個 B，以及要怎樣計算需要多少 GPU VRAM？這裡的「B」表示10億 (Billion)，即10^9。因此，7B表示70億個可訓練參數。現在多數模型參數大多數都是 float32，佔4個位元組 (bytes, 1 bytes = 8 bits)。最好記的算法是每10億個參數，佔用 4GB GPU VRAM，精度每減半如fp16，VRAM也會減半 (實際上是 10^9*4/1024/1024/1024=3.725G，方便就先記為4GB)。但這只是模型權重，你可能還需要考慮包含反向傳播的梯度、最佳化器所使用、正向傳播的啟動狀態記憶體。

FP32（單精度）：每個參數佔 4 位元組（bytes）。
FP16（半精度）或 BF16（腦浮點16）：每個參數佔 2 位元組，常見於訓練和微調。
INT8（8 位整數）：每個參數佔 1 位元組，常用於推理或量化技術（如 QLoRA）。

Hugging Face 有篇不錯的說明文：Optimizing your LLM in production

以 fp32 推理 (單位為 GB)：因為1 GB ≈ 1B字節，模型記憶體= 4 * 參數量 (位元組)，總量約需≈ 1.2×模型記憶體。
以 fp32 訓練 (單位為 GB) 至少：模型權重 4 * 參數量 + 優化器 12 * 參數量 + 梯度 4 * 參數量 + 啟動

訓練一個大模型通常涉及全參數更新，包括前向傳播、反向傳播和優化器更新。

模型參數量（X B）：參數規模直接決定基礎記憶體需求。
參數精度：FP32、FP16 或 BF16 影響每個參數的記憶體佔用。
優化器狀態：常見的 Adam 或 AdamW 優化器需要儲存動量和方差，通常以 FP32 格式儲存（即使模型用 FP16 訓練），每個參數額外需要 8 位元組（2 × 4 位元組）。
梯度：反向傳播計算的梯度與模型參數量相同，精度通常與訓練精度一致（如 FP16 為 2 位元組/參數）。
啟動值：前向傳播的臨時輸出，受 batch size、sequence length、隱藏層維度（hidden dimension）和層數（number of layers）影響。啟動值可能佔用大量 VRAM，但可透過梯度檢查點（Gradient Checkpointing）技術減少。
Batch Size 與 Sequence Length：直接影響啟動值的記憶體需求。
框架開銷：PyTorch、TensorFlow 或 CUDA 核心會佔用固定或變動的 VRAM。

那麼估算一下

FP32 全參數訓練

模型權重：X B × 4 位元組 = 4X GB
梯度：X B × 4 位元組 = 4X GB
優化器狀態（AdamW，FP32）：X B × 8 位元組 = 8X GB
核心部分總計：(4 + 4 + 8) × X GB = 16X GB
啟動值與其他開銷：啟動值大小與 batch size、sequence length、模型架構有關，無法簡單以 X 線性估算。通常需額外數 GB 至數十 GB，視配置而定。
訓練 Llama 2 70B（X=70）：核心部分：16 × 70 = 1120 GB 加上啟動值和開銷：可能超過 1500 GB，需大型 GPU 集群（例如多張 NVIDIA H100 80GB）。
訓練 7B 模型（X=7）：核心部分：16 × 7 = 112 GB 加上啟動值和開銷：約 150–200 GB，需多張高端 GPU（如 2–3 張 A100 80GB）配合 DeepSpeed ZeRO。

混合精度訓練（FP16/BF16)

模型權重：X B × 2 位元組 = 2X GB
梯度：X B × 2 位元組 = 2X GB
優化器狀態（AdamW，FP32）：X B × 8 位元組 = 8X GB
核心部分總計：(2 + 2 + 8) × X GB = 12X GB
啟動值與開銷：仍需數 GB 至數十 GB。
訓練 7B 模型（X=7）：核心部分 12 × 7 = 84 GB，總計約 100–140 GB。
訓練 70B 模型（X=70）：核心部分 12 × 70 = 840 GB，總計可能超過 1 TB。

全參數微調

講完訓練，接著大家一定想著要來問既然自己訓練只能有夢最美，那微調可以吧？微調（Fine-tuning）通常比從頭訓練更輕量，因為它只需要調整模型以適應特定任務。微調可分為全參數微調和參數高效微調（如 LoRA 和 QLoRA）。

模型權重：X B × 2 位元組 = 2X GB
梯度：X B × 2 位元組 = 2X GB
優化器狀態（AdamW，FP32）：X B × 8 位元組 = 8X GB
核心部分總計：(2 + 2 + 8) × X GB = 12X GB
啟動值：依 batch size、sequence length、隱藏層維度和層數而定
微調 7B 模型（X=7）：

核心部分：12 × 7 = 84 GB
啟動值和開銷：約 100–140 GB，需 2 張 A100 80GB 配合 DeepSpeed ZeRO Stage 2 或 3。

微調 70B 模型（X=70）：

核心部分：12 × 70 = 840 GB 總計超過 1 TB，需大型 GPU 集群。

LoRA 微調

LoRA（Low-Rank Adaptation）是一種參數高效微調技術，只訓練一小部分「適配器」參數（通常幾百萬至幾千萬，記為 Y M），而凍結原始模型的大部分參數。

凍結模型權重（FP16/BF16）：X B × 2 位元組 = 2X GB
LoRA 參數（Y M）：Y M × 2 位元組（FP16），通常僅數十至數百 MB，可忽略。
LoRA 梯度：Y M × 2 位元組，極小。
LoRA 優化器狀態（AdamW）：Y M × 8 位元組，仍然很小。
啟動值：與全參數微調類似，受 batch size 和 sequence length 影響，需數 GB 至數十 GB。
梯度檢查點可顯著降低需求。
其他開銷：數 GB。
微調 7B 模型（X=7）：

基礎模型：2 × 7 = 14 GB
啟動值（梯度檢查點，適中配置）：5–15 GB
總計：約 20–30 GB，單張 RTX 3090/4090（24GB）或 A100 40GB/80GB 通常足夠。

微調 70B 模型（X=70）：

基礎模型：2 × 70 = 140 GB
啟動值和開銷：20–40 GB
總計：約 160–190 GB，需 2–3 張 A100/H100 80GB。

QLoRA 微調

QLoRA（Quantized LoRA）進一步降低顯存需求，將基礎模型以 4-bit 量化（NF4 格式）載入。

凍結模型權重（4-bit）：X B × 0.5 位元組（近似） = 0.5X GB
LoRA 參數、梯度、優化器狀態：極小，數十至數百 MB。
啟動值：與 LoRA 類似，需數 GB 至數十 GB。
其他開銷：數 GB。
微調 7B 模型（X=7）：

基礎模型：0.5 × 7 ≈ 3.5–5 GB
啟動值和開銷：5–10 GB 總計：約 10–16 GB，單張 RTX 3090/4090（24GB）足夠。

微調 70B 模型（X=70）：

基礎模型：0.5 × 70 ≈ 35–40 GB
啟動值和開銷：20–40 GB 總計：約 60–80 GB，單張 A100/H100 80GB 可行（batch size 和 sequence length 需受限）。

推理的 VRAM 需求

FP32 推理：

模型權重：X B × 4 位元組 = 4X GB
啟動值和開銷：約 20% 額外顯存
總計：約 4X × 1.2 = 4.8X GB

FP16/BF16 推理：

模型權重：X B × 2 位元組 = 2X GB
總計：約 2.4X GB

INT8 推理（量化）：

模型權重：X B × 1 位元組 = 1X GB
總計：約 1.2X GB

Llama 2 70B（X=70）FP32 推理：約 4.8 × 70 = 336 GB，需多張高端 GPU 或量化技術（如 INT8 或 DeepSpeed ZeRO-Infinity）。INT8 推理可降至約 84 GB，但可能犧牲精度和速度（因 GPU 與 SSD 的傳輸瓶頸）。

結論：希望不要再有廠商四處亂唬弄人了

不嫌棄的話還是用雲端吧 !

大型語言模型API平台價格比較

語音識別 / 合成平台價格比較

實時語音交互 ASR+LLM (RAG+搜尋)+自訂TTS

實時語音交互 ASR+LLM (RAG)+自訂TTS(很有辨識度)

2016/06 自己添購(開箱) GIGABYTE GTX 960 4G * 2

2017/01 自己添購(開箱) 技嘉GTX1080 XTREME GAMING 8G

2018/05 公司投資添購(開箱) NVIDIA TITAN V + NVIDIA TITAN XP

2023/08 公司添購 RTX 6000 Ada 48 GB * 2 和 A 100 80GB * 4

2024/05 公司添購RTX 6000 Ada 48 GB * 8 * 2

https://github.com/Deep-Learning-101 | https://huggingface.co/DeepLearning101

那些語音處理 (Speech Processing) 踩的坑 | 白話文手把手帶你科普 GenAI

那些自然語言處理 (Natural Language Processing, NLP) 踩的坑
大型語言模型要踩的坑 | 那些檢索增強生成 (Retrieval-Augmented Generation, RAG) 要踩的坑

那些ASR和TTS可能會踩的坑 | 用PaddleOCR的PPOCRLabel來微調醫療診斷書和收據

基於機器閱讀理解和指令微調的統一信息抽取框架之診斷書醫囑資訊擷取分析

手把手帶你學 Pytorch、CUDA、cuDNN、Ubuntu、NGC、NVIDIA-Docker 的安裝與設定

2023/11 更新

猶記得2023上半年大語言模型還有 LangChain，做了各種測試記錄，然後對整個集團子公司夥伴約300人+的分享，還有各種AI產品垂直落地規畫討論如雪花飛來，長官們都非常感興趣，然 ~ 後 ~ 就 .... 你知、我知、獨眼龍也知的好像？畢竟，算力？人力？數據等的需求就是擺在那邊，只能說都勉強還在可預期接受範圍，努力吧 ! 但感謝老闆們給了我不小的自由研究工作和靈活度也添購了相關設備 ! BUT，就是這個 BUT，一轉眼瞬間整個天崩地裂呢 !

最近，因為OpenAI的GPT-3跟ChatGPT實在太火 (GPT-4 Turbo已於2023/11問世)，大型語言模型夯到一發不可收拾；大家一定偶爾都會聽到高層們會問是不是可以自己訓練一個？更有人會問說為什麼我們不可以自己訓練一個？用一個3,000億個Token的公開網路資料集，訓練1,750億參數的GPT-3模型，若採用1,024張A100 GPU，還是要花上24天。

根據 Llama 2 其 model card，可以看到是今年1月~7月所訓練的，總計有70億、130億、700億三種版本，還有個340億的版本，然後數據量多了 40%，長度也更長，來到4096個token (Llama 1 只有 2048 個)，更長的上下文可以讓模型處理更多信息，特別是更長的歷史記錄；需注意的是以英文場景為主，但含了 ba, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl. sr. sv. uk 等等，還有 zh 0.13% (繁中數據本來就不易製作啊：中研院資訊所對 CKIP-Llama-2-7b 之回應)。總共包含 760 個 NVIDIA DGX A100 系統作為其計算節點，總共 6,080 個 GPU，花費了330萬個GPU小時 !

換句話說，想在一個月內訓練出參數量和ChatGPT相當的自有GPT-3模型，得採購128臺DGX A100超級電腦 (單臺8卡)，光硬體費用就超過約新臺幣7.68億元，就算願意等上一年訓練一次，也至少要投資5千多萬元採購9套。若換成按月租用的超級電腦服務，以月租費113萬元Ｘ128個超級電腦VM，則約新臺幣1.4億元。其實就是這真的不是一般人(公司)可以玩的；畢竟台灣杉二號(台灣最大？)也只是由252個節點組成，每個節點包含2顆CPU及8顆 NVIDIA Tesla V100 32GB(共2016張)的GPU

(source: https://tw.leaderg.com/article/index?sn=11473)

撇開大家可能都很想直接翻高層白眼，前面時間跟價格寫得算蠻清楚 (聽說 GCP/Azure，V100*8 應該也要60W+/月？據可靠消息 4卡A100的80GB報價約300萬台幣)，給各位高層們先看看自己口袋深不深 XD 當然那些整天四處嘴砲自己家開發了AI多強的，記得也先問問他們有幾張 GPU ? 但畢竟不是什麼都可以上雲，所以有沒有機會落地在自己行業領域裡，可以「商用」的垂直應用場景，似乎就更關鍵了。

所以話題再回到自己訓練一個？ChatGPT/ GPT-3 (Generative Pre-trained Transformer) 可以？為什麼不可能？有什麼方法可以改進修正或參考？看到這邊一定有人想喊，有啊，可以微調啊 ... 很好，簡單再算一下 ~~~ 首先是模型大小 (7B、13B或70B) 模型的參數數量越多，所需的 GPU 記憶體和計算量越高這是前面就已經有的概念，而微調的方法有全參數微調跟參數高效微調 (PEFT)，當然還要訓練資料；據查詢到的數據，算力需求大概如下；也就是用幾年前的一台V100 32G * 8跑一次，都得花上個10來天 ... 差不多就20多萬比較靠譜點。

Llama 2-7B 做全參數微調需求30GB，做LoRA/PEFT 需求12GB，GPU 小時估算約20~50 小時
Llama 2-13B 做全參數微調需求60GB，做LoRA/PEFT 需求24GB，GPU 小時估算約40~100 小時
Llama 2-70B 做全參數微調需求180GB，做LoRA/PEFT 需求48GB+，GPU 小時估算約150~300 小時

很好，可以做 RAG 啊 XD 嗯 ~ 這不在這篇討論內容；所以，回到ChatGPT跟GPT-3或者GPT-4，我們就先別自欺欺人了，就算你口袋有那麼深，有那麼充足的人力，現在開始去訓練，只能說夢裡什麼都有 !

所以咱們還是想想有無替代方案？以下排列以個人查詢、注意到或其發表時間，無任何比較 ! 以下文章已盡量保持無誤植，除了摘要相關報導或官網文字亦附上相關網址，轉載者也記得附上相關網址；如果有任何遺缺還請不吝撥空告知 ! PS: 百度的文心一言、商湯的日日新跟商量、阿里的通義千問、360的360搜索、Google的Bard還有Amazon的Titan等等，就不多加介紹了 !

一切的起源都是Open AI 的 ChatGPT 後，草泥馬之亂(？)的起源 Meta AI 的 LLaMa ，再來則是一連串草泥馬變種，像是 Stanford-Alpaca 跟 Alpaca-Lora 還有 Vicuna 和 LMFlow 等，這些也都另外有人做了中文數據；另外就是有 BLOOM 跟 BELLE、Koala 等。BUT，就是這個BUT，OpenAI 這次不太 Open，像是 Stanford Alpaca 的 5.2 萬個問答數據集，是根據 OpenAI 的 ChatGPT 的輸出進行訓練的，而 OpenAI 的使用條款包括一條規則，即你不能使用 OpenAI 的服務反過來與其競爭；而基於 Meta Llama 1 開源的草泥馬(羊駝)系列模型也因為數據集等問題「僅限於學術研究類應用」!

這篇比不上Awesome-Chinese-LLM的完整與詳細，單純只專注我個人目前有實際跑過且可以 " 商業使用 "，以及優化訓練方式及速度還有數據集等。Cerebras、OpenChatKit、ChatChun、Dolly 2.0、StableLM、MOSS、Open Assistant、HuggingChat、Lamini、MPT、AutoGPT、HuggingGPT、MiniGPT-4、UltraChat、Koala、DeepSpeed Chat、Colossal AI、LLaMa、Stanford-Alpaca、BLOOM、BELLE、Alpaca-Lora、Vicuna、LMFlow、ChatGLM或者參考一下這裡，應該有更多的整理介紹。

Introducing MPT-7B

從Meta的LLaMA發展出的羊駝家族一系列大模型，已成為開源AI重要力量。但LLamA開源了又沒全開，只能用於研究用途，還得填申請表格等，也一直被業界詬病。根據官方宣布的測試結果，MPT-7B的水平與MetaAI發布的LLaMA-7B水平差不多，屬於當前開源領域最強大的模型。最重要的是，MPT-7B系列中有一個可以支持最多65k上下文輸入的開源模型，比GPT-4的32k還高！應該是目前最長的！目前，MPT-7B模型系列包含4個，其中3個開源可商用，一個是非商用模型。

https://www.mosaicml.com/blog/mpt-7b
https://huggingface.co/mosaicml/mpt-7b
https://huggingface.co/spaces/mosaicml/mpt-7b-instruct
最新發布！截止目前最強大的最高支持65k輸入的開源可商用AI大模型：MPT-7B！

HuggingChat

2023/04/26 00:00 由 Huggingface CTO 所發佈。

「Open Assistant和HuggingChat是兩個相關的項目，都涉及使用深度學習技術和海量文本數據開發對話式人工智能。它們的共同根源是Hugging Face Inc.，該研究實驗室專注於在文本生成和理解、計算機視覺和NLP等領域建立行業領先的人工智能技術。此外，HuggingChat代表的是聊天機器人或語言模型等方面，而Open Assistant則建立在這一基礎之上，具有額外的特性和功能，旨在更好地適用於更一般化的問題和答案。

推動HuggingChat的AI模型是由Open Assistant開發的，Open Assistant是由德國非營利組織LAION組織的一個項目，該組織負責創建數據集，該數據集用於培訓文本到圖像的AI模型Stable Diffusion。Open Assistant旨在複製ChatGPT，但該組織 (主要由志願者組成) 有更廣泛的野心。

Today is a big day as we launch the first open source alternative to ChatGPT: HuggingChat 💬

http://hf.co/chat
https://huggingface.co/OpenAssistant/oasst-sft-6-llama-30b-xor
Hugging Face releases its own version of ChatGPT
https://techcrunch.com/2023/04/25/hugging-face-releases-its-own-version-of-chatgpt/

BTW，我覺得提供的這個頁面，讓用戶幫忙標註這蠻不錯的 !

Open Assistant

非營利AI研究組織LAION專攻大型AI模型研究，最近，他們發起Open Assistant專案，號召開發者協作來打造ChatGPT類模型，並要免費開源給大眾。團隊說明，該專案的目標不只是仿造ChatGPT，而是要打造功能更強大的「未來助理」聊天機器人，這個助理不只要會寫Email和求職履歷，還要會用API與第三方互動、動態搜尋和取得所需資訊。團隊表示，這個助理還要能在消費級硬體上執行，讓大眾都能使用。

OpenAssistant是可以商用的（僅限ElutherAI Pythia訓出來的），因為ElutherAI Pythia、OpenAssistant數據集、使用兩者調出來的模型都是Apache 2.0 License.

OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.

https://github.com/LAION-AI/Open-Assistant
https://projects.laion.ai/Open-Assistant/

Open Assistant：創造一場開源革命

AI趨勢周報第208期：AI社群發起Open Assistant專案，要打造與第三方互動的AI助理

OpenAssistant 12B(pythia-based)在地部署快速體驗(ChatGPT開源、可商用的平替)

OpenAssistant 對話 - 民主化大型語言模型對齊（Open-Assistant）

全球最大ChatGPT開源平替來了！支援35種語言，寫代碼、講笑話全拿捏

Dolly

以Eleuther AI 2年前的模型為基礎，在單一機器上透過類似ChatGPT的指令訓練30分鐘而成，再以Alpaca模型的資料加以訓練微調，即可發揮其指令跟從的能力，像是腦力激盪、文字生成及開放性的問答等。Databricks在釋出大型語言模型Dolly的兩週後，又釋出了Dolly 2.0，而第二個版本的重點在於開源且商業可用。Databricks 在官方部落格中指出，「用於訓練 Dolly 1.0 的資料集中，包含來自 ChatGPT 的輸出。史丹佛團隊明確提到，OpenAI 的服務條款試圖阻止任何人創建能夠與其競爭的 AI 模型。」

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基礎之上，為了規避這個問題並建立起可供商用的模型，Databricks 使用基於 EleutherAI 的 Pythia 模型家族中的 120 億參數語言模型，成功構建起了 Dolly 2.0。Databricks集結5,000名員工，共同編寫databricks-dolly-15k指令遵循資料集來訓練Dolly 2.0，現在Databricks對外開源整個Dolly 2.0，包括訓練程式碼、資料集和模型權重，供商業和學術使用。

https://github.com/databrickslabs/dolly
Databricks公布生成性AI模型Dolly，強調比ChatGPT更容易訓練
全球首個完全開源的大語言模型Dolly，性能堪比 GPT3.5！

世界首款真開源類ChatGPT大模型Dolly 2.0，可隨意修改商用
Databricks開源可商用的指令遵循大型語言模型Dolly 2.0

上圖是 dolly-v2-12b 的運行狀況，GPU 只需要 24 GB，MEM 則是32 GB，然後跑起來都報錯，開始研究怎樣解決囧 !

https://github.com/python/cpython/blob/6be7aee18c5b8e639103df951d0d277f4b46f902/Lib/inspect.py#L884
File "/anaconda3/envs/2dolly/lib/python3.10/inspect.py", line 750, in cleandoc
lines = doc.expandtabs().split('\n')
AttributeError: 'list' object has no attribute 'expandtabs'
https://learnku.com/docs/pymotw/inspect-inspect-live-objects/3490

就這樣，體驗ChatGPT到底有多麼神奇的機會再次來臨；因為上面其實Google不到什麼靠譜的答案，所以就直接貼到ChatGPT的對話 ~ 然後 ~ MAGIC ~ 搞定，打完收工 ! XD

MOSS

復旦NLP團隊首發上線MOSS兩個月後，他們照承諾，真正的把MOSS開啟了。同時，MOSS也成為了中國首個搭載插件系統的開啟誘惑。這一次，復旦團的模型不僅更加成熟，而且還增加了「搜索引擎、計算器、解決方案、生成圖」等插件功能，何時可在線溜在FP16精度下單張A100/A800或兩張3090顯卡就能運行，而在INT4/8精度下只需要一張3090即可。(但還沒放出)

What are differences between MOSS and ChatGPT?

The number of parameters of MOSS is much fewer than ChatGPT. MOSS learns by talking to human and other AI models, while ChatGPT is trained with Reinforcement Learning from Human Feedback (RLHF). MOSS will be open-sourced to facilitate future research but ChatGPT may not.

根據團隊成員孫天的詳細介紹，目前開源的版本稱為MOSS 003，而二月份公測的版本為MOSS 002，一個月的內測版本1為OpenChat 00。

本項目所含代碼採用Apache 2.0協議，數據採用CC BY-NC 4.0協議，模型權重新採用GNU AGPL 3.0協議。如需本項目所含模範或者公開部署，請簽署本文件並發送至robot@fudan.edu.cn取得授權，商業情況只用於記錄，不會收取任何費用。言論，造成不良影響，由服務提供方負責，與本項目無關。

https://github.com/OpenLMLab/MOSS
https://txsun1997.github.io/blogs/moss.html

至於這個，堪稱是測了這麼多個變型的大語言模型後，跑起來最簡單，用起來也最快速，效果也真的蠻理想的了 ! 勵害了 !!! 需注意的是這是開了4張32GB的V100，然後記憶體吃了快100GB跑起來的效果啊 !

Baichuan

2023年6月15日，百川智能才剛剛發布其第一款70億參數量的中英文語言模型Baichuan-7B。當時的版本便已經拿下多個世界權威Benchmark榜單同量級測試榜首；同樣作為開源大模型，據說清華北大都已經用上了。僅僅時隔25天，更大、更強的版本再次襲來。

Baichuan-13B：中英雙語大模型，130億參數，在1.4萬億token數據集上訓練，完全開源、免費可商用。1.4萬億ztoken這個訓練數據量，超過LLaMA-13B訓練數據量的40%，是當前開源的13B尺寸模型世界裡，訓練數據量最大的模型。

對學術研究完全開放，開發者均可通過郵件向百川智能申請授權，在獲得官方商用許可後即可免費商用。王小川大模型25天再升級！13B版本開源免費可商用，3090即可部署

https://mp.weixin.qq.com/s/sFVAgypEptxa6qCYcHix9g
https://huggingface.co/baichuan-inc/Baichuan-13B-Base
https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
https://github.com/Baichuan-inc/Baichuan-13B

Lamini

2023/04/30 尚未完全開放哦 !
Lamini 是一個LLM 引擎，供開發人員使用很多公司、機構的基礎模型快速構建定制化模型：你可以用OpenAI、EleutherAI、Cerebras、Databricks、HuggingFace、Meta 等公司的技術做自己的，只要他們開源就可以。
Lamini 是一個LLM 引擎，它允許開發人員只使用Lamini 庫中的幾行代碼，就能在大型數據集上訓練出高性能的LLM。Lamini 庫涵蓋對機器學習模型的多種優化，包括簡單的優化（例如消除模型「幻覺」）和更具挑戰性的優化（例如RLHF）。

神奇LLM引擎上線：幫你把GPT-3直接調成ChatGPT
https://www.jiqizhixin.com/articles/2023-04-29-3
https://lamini.ai/
https://lamini-ai.github.io/

元語智能 (ChatYuan)

中國的，下面有個知乎的連結蠻清楚的 ! 簡單參考一下 ! 有DEMO，用起來體驗還可以，有時候生成的文字比較特別一點就是 ! 一個支持中英雙語的功能型對話語言大模型，ChatYuan-large-v2使用了和v1版本相同的技術方案，在指令微調、人類反饋強化學習、思維鍊等方面進行了優化。另外在網路上查到這樣的介紹：底層採用7億參數規模的T5模型，並基於PromptClue進行了監督微調形成了ChatYuan。該模型基本上是ChatGPT技術路線的三步的第一步，沒有實現獎勵模型訓練和PPO強化學習訓練。

https://github.com/clue-ai/ChatYuan
https://huggingface.co/ClueAI/ChatYuan-large-v2

國産ChatGPT又開源了！效果大幅升級，在手機上也可以跑

上圖是 ChatYuan 的運行狀況，GPU 居然只需要 4 GB，MEM 則是 18-20 GB，然後跑起來。。。嗯，效果堪慮囧 !

OpenChatKit

原始碼、模型權重和訓練資料集全部公開。它叫OpenChatKit，由前OpenAI研究員共同打造。總的來說，OpenChatKit開箱即用，擅長多項任務，包括具有上下文的總結和問題回答、資訊提取、文本分類等。但它還不太擅長創意寫作（尤其是編長故事）、寫程式，以及有時可能會重複回應你的請求、在切換話題時表現遲鈍；不過，正如Together在部落格中說的那樣：這個模型不是發表完就結束了，它是一個開源專案的開始。

https://github.com/togethercomputer/OpenChatKit
ChatGPT 替代品 OpenChatKit 來了！由前 OpenAI 團隊打造，在 GitHub上開源發表
https://www.techbang.com/posts/104629-chatgpt-open-source-is-here-out-of-the-box-founded-by-the

Cerebras-GPT

https://github.com/Cerebras/modelzoo
Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/
免费可商用开源GPT模型来了，50G权重直接下载，性能不输GPT-3
https://zhuanlan.zhihu.com/p/618893184

HuggingGPT

相關摘要簡介：LLM主要交互的對像是文本，但現實世界中的任務涉及到多種模態：包括但不限於語音、圖像、文本。同時一個複雜的任務可以被分解為多個子任務，而這些子任務一般需要領域專用的模型才能取得更好的結果。因此，一個自然而然的想法就是同時使用LLM和領域專用模型，來解決現實世界中的複雜問題。具體到HuggingGPT上，它選用ChatGPT作為LLM，利用ChatGPT進行任務規劃、模型選擇、響應生成；選用浙大&微软推出的HuggingFace上豐富的AI模型作為領域專用模型來負責任務執行。簡單來講，HuggingGPT是一個協作系統，並非是大模型。到目前為止，HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型，涵蓋了文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等24個任務。

https://arxiv.org/pdf/2303.17580.pdf
https://github.com/microsoft/JARVIS
https://huggingface.co/spaces/microsoft/HuggingGPT (需 open ai api key)
ChatGPT長出手，打造最強「賈維斯」！出一張嘴就能讓AI命令AI，怎麼做到？

AutoGPT

相關摘要簡介：一種新的趨勢：自主人工智能。這不是空穴來風，最近一個名為 AutoGPT 的研究開始走進大眾視野。特斯拉前 AI 總監、剛剛回歸 OpenAI 的 Andrej Karpathy 也為其大力宣傳，並在推特讚揚：「AutoGPT 是 prompt 工程的下一個前沿。」一個實驗性的開源應用程序，展示了 GPT-4 語言模型的功能。該程序由 GPT-4 驅動，可以自主實現用戶設定的任何目標。
https://github.com/torantulino/auto-gpt

MiniGPT-4

一個名為MiniGPT-4 的新模型：它使用先進的大型語言模型(LLM)--Vicuna（其中Vicuna 是基於LLaMA 構建的）進行調優，在文本語言方面可以達到ChatGPT 能力的90%。在視覺感知方面，作者採用了與BLIP-2相同的預訓練視覺組件，其中該組件由EVA-CLIP的ViT-G/14和Q-Former組成。

https://minigpt-4.github.io/
首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！
https://zhuanlan.zhihu.com/p/622670784

DeepSpeed

眾所周知，由於OpenAI太不Open，開源社區為了讓更多人能用上類ChatGPT模型，相繼推出了LLaMa、Alpaca、Vicuna、Databricks-Dolly等模型。但由於缺乏一個支持端到端的RLHF規模化系統，目前類ChatGPT模型的訓練仍然十分困難。而DeepSpeed Chat的出現，正好補全了這個「bug」。

https://github.com/microsoft/DeepSpeed
https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md
人手一個ChatGPT！微軟DeepSpeed Chat震撼發布，一鍵RLHF訓練千億級大模型

Colossal-AI
讓AI大模型更低成本、方便易用、高效擴展；這個請先參閱網路上的文章，測試中 !
https://github.com/hpcaitech/ColossalAI
Colossal-AI用單張消費級顯示卡，就可以低成本重現ChatGPT完整演算流程，已開源
開源了 650 億參數 LLaMA 低成本預訓練方案，相比業界其他主流選擇，可提升預訓練速度 38%，僅需 32 張 A100/A800 即可使用，並且不限製商業使用。

UltraChat

單就數據而言，高質量的數據至關重要，為此OpenAI 對數據和標註工作下了很大力氣。有多項研究表明，ChatGPT 是比人類更加可靠的數據標註者，如果開源社區可以獲得ChatGPT 等強大語言模型的大量對話數據，就可以訓練出性能更好的對話模型。這一點羊駝系列模型——Alpaca、Vicuna、Koala—— 已經證明過。例如，Vicuna 使用從ShareGPT 收集的用戶共享數據對LLaMA 模型進行指令微調，就復刻了ChatGPT 九成功力。越來越多的證據表明，數據是訓練強大語言模型的第一生產力。僅限於學術研究或不能商業使用
https://github.com/thunlp/UltraChat
調用多個ChatGPT API相互對話，清華開源的多輪對話數據UltraChat來了

ChatGLM

[2023.05.09]ChatGLM-6B 全球下載達到160萬，
[2023.03.18]ChatGLM-6B 登上Hugging Face Trending 榜第一，持續12天

根據介紹，應該是清華大學實驗室和智普AI合作的，ChatGLM-6B 是一個開源的、支持中英雙語問答的對話語言模型，並針對中文進行了優化。該模型基於 General Language Model (GLM) 架構，具有 62 億參數。結合模型量化技術，用戶可以在消費級的顯卡上進行本地部署（INT4 量化級別下最低只需 6GB 顯存）。

https://chatglm.cn/blog
https://github.com/THUDM/ChatGLM-6B
https://huggingface.co/THUDM/chatglm-6b
https://huggingface.co/spaces/multimodalart/ChatGLM-6B

清華大學開源中文版ChatGLM-6B模型學習與實戰

清華ChatGLM-6B模型在地部署

基於GLM-6B對話模型的實體屬性提取項目實際解析：零樣本與情境學習

上圖是 ChatGLM-6 的運行狀況，GPU 只需要13-14 GB，MEM 則是24-25GB，但跑起來都效果略糟囧 ! 至於130b 現在看來只提供做生成式的克漏問答

ChatGLM2-6B升級1：基座模型升級，性能更加強大

ChatGLM2-6B升級2：更長的上下文

ChatGLM2-6B升級3：更高效的推理，更快更便宜！

ChatGLM2-6B升級4：更加開放的協議

在第一代ChatGLM-6B模型中，有一個比較遺憾的是它的模型開源協議限製較大，完全禁止商用。而第二代的ChatGLM2-6B則宣佈對學術研究完全開放，而且允許申請商用授權，不過需要書麵申請，並且冇有說明是否收費。

重磅！第二代ChatGLMPO！清華大學THUDMPOChatGLM2-6B：更快更準，更低成本更長輸入

BLOOM

BLOOM是由HuggingFace推出的大模型，其參數量達到176B(GPT-3是175B)。目前超過100B參數量且能夠支援中文的開源大模型有BLOOM和GLM-130B。由於HuggingFace是著名開源工具Transformers的開發公司，很多推理工具都會支援Transformers中的模型。

https://huggingface.co/bigscience/bloom
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
https://arxiv.org/pdf/2211.05100.pdf
具備1,760億個參數的語言模型BLOOM開源了

BLOOM：一個176B參數且可開放獲取的多語言模型

大語言模型BLOOM推理工具測試

StableLM

Stable Diffusion 也出語言大模型了，效果還挺好。本週三，StableLM 的發布引來了科技圈的關注。 Stability AI 是近期勢頭正盛的創業公司，因為開源的AI 畫圖工具Stable Diffusion 而飽受好評。在周三的發布中，該公司宣布其語言大模型現已可供開發人員在GitHub 上使用和改編。

Base model checkpoints (StableLM-Base-Alpha) are licensed under the Creative Commons license (CC BY-SA-4.0). Under the license, you must give credit to Stability AI, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the Stability AI endorses you or your use.
Fine-tuned checkpoints (StableLM-Tuned-Alpha) are licensed under the Non-Commercial Creative Commons license (CC BY-NC-SA-4.0), in-line with the original non-commercial license specified by Stanford Alpaca.
All code in this repository is licensed under the Apache License 2.0 license.
https://github.com/stability-AI/stableLM/
https://www.jiqizhixin.com/articles/2023-04-21-7
https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

LLaMA (Large Language Model Meta AI)

Meta 宣佈推出最新的 LLaMA (Large Language Model Meta AI) 大型語言模型 (LLM) 並公開研究論文，Google LaMDA、OpenAI 的 GPT 機密的訓練資料與演算法不同，LLaMA 是以公開資料進行訓練，成果也較開放。這個模型有從 70 億到 650 億個參數各種大小的版本，重點在拉丁文和斯拉夫字母等20種語言進行訓練。也強調用更低的算力需求擁有超過 OpenAI 有 175 億參數的 GPT-3 模型 (ChatGPT 採用 GPT-3.5)，還強調 LLaMA 有計算能力並適合用於科學研究。值得注意的是有查到這樣一段報導：「Meta 的目標是與研究社群的成員分享最先進的 AI 模型，以幫助 Meta 評估和改進這些模型。LLaMA 是出於研究目的而共享的，這與我們之前共享大型語言模型的方式一致。」所以，不能商用的；這也包括了以下任何基於 LLaMA 所延生出來的 !？

https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
https://github.com/facebookresearch/llama

Stanford Alpaca

草泥馬 (羊駝)：ChatGPT 學術版開源實現 Alpaca 本身的介紹 blog 其實說的非常清晰了，模型的訓練流程基本可以概括為 52K 個 intruction-following examples 來微調 Meta 的大語言模型 LLaMA 7B (Meta 開放了模型權重以及 Inference 代碼，從而生成了 Alpaca 7B。

Alpaca: A Strong, Replicable Instruction-Following Model

Alpaca-LoRA
ChatGPT 輕量級的開源版本 Alpaca-Lora，它使用 Lora (Low-rank Adaptation) 技術在 Meta 的 LLaMA 7B 模型上微調，只需要訓練很小一部分參數就可以獲得媲美 Standford Alpaca 模型的效果。

查到這樣一段解說：關於 Alpaca-Lora 和 Stanford Alpaca 的區別，Stanford Alpaca 是在 LLaMA 整個模型上微調，而 Alpaca-Lora 則是利用 Lora 技術 (LoRA: Low-Rank Adaptation of Large Language Models)，在凍結原模型 LLaMA 參數的情況下，通過往模型中加入額外的網路層，並只訓練這些新增的網路層參數。由於這些新增參數數量較少，這樣不僅 finetune 的成本顯著下降，還能獲得和全模型微調類似的效果。

https://github.com/tloen/alpaca-lora
Alpaca-Lora:訓練你自己的ChatGPT

Alpaca-Lora (羊駝-Lora): 輕量級 ChatGPT 的開源實現 (對標 Standford Alpaca)

A Chinese finetuned instruction LLaMA

Vicuna

同樣是基於Meta開源的LLaMA大模型微調。與此前斯坦福大學基於LLaMA的Alpaca不同的是，盡管也薅了ChatGPT羊毛：用了ChatGPT生成的數據，但Vicuna所用的數據來自ShareGPT，而不是直接用OpenAI的API生成。ShareGPT是一個分享ChatGPT對話的Google插件，目前擁有超過11萬對話數量。

https://vicuna.lmsys.org
https://github.com/lm-sys/FastChat

2000元訓練比肩ChatGPT的開源大模型！GPT-4親自蓋章認證，模型權重均可下載

BELLE

Alpaca 的種子任務都是英語，收集的數據也都是英文，因此，訓練出來的模型未對中文優化。為了提升對話模型在中文上的效果，BELLE基於斯坦福的 Alpaca，對中文進行了優化，並對生成代碼進行了一些修改。不僅如此，該項目的模型調優僅使用由 ChatGPT 生産的數據 (不包含任何其他數據)。通過20 萬、60 萬、100 萬和 200 萬樣本等不同大小規模的指令學習的數據集訓練模型，得到不同的模型版本。

https://github.com/LianjiaTech/BELLE

基於LLaMA-7B/Bloomz-7B1-mt複現開源中文對話大模型BELLE及GPTQ量化

每一個人的大模型：開源BELLE項目集訓練、數據、模型、評估、APP一體

LMFlow

在有限的計算資源，也能讓使用者針對專有領域支持個性化訓練。基於 70 億參數的 LLaMA，只需 1 張 3090、耗時 5 個小時，就可以訓練一個專屬於自己的個性化 GPT，並完成網頁端部署。開源庫作者們已經利用這個框架單機訓練 330 億參數的 LLaMA 中文版，並開源了模型權重用於學術研究。

https://github.com/OptimalScale/LMFlow
http://lmflow.com
3090單卡5小時，每個人都能訓練專屬ChatGPT，港科大開源LMFlow

Koala

UC伯克利发布对话模型 Koala，让"羊驼"模型更强大！
https://zhuanlan.zhihu.com/p/619700344

Firefly(流螢)

Firefly（流螢）是一個開源的中文對話式大語言模型，使用指令微調（Instruction Tuning）在中文數據集上進行調優。同時使用了詞表裁剪、ZeRO、張量並行等技術，有效降低顯存消耗和提高訓練效率。在訓練中，我們使用了更小的模型參數量，以及更少的計算資源。

https://github.com/yangjianxin1/Firefly

伶荔(Linly)

為了開發高性能中文基礎模型，填補中文基礎模型百億到千億級預訓練參數的空白，大數據系統計算技術國家工程實驗室副主任、深圳大學計算機與軟件學院沈琳琳教授團隊在人工智能項目“伶荔(Linly)”支持下，推出了伶荔說系列中文語言大模型，目前包含中文基礎模型和對話模型。其中，中文基礎模型以LLaMA為底座，利用中文和中英平行增量預訓練，將它在英文上強大語言能力遷移到中文上。更進一步，匯總了目前公開的多語言指令數據，對中文模型進行了大規模指令跟隨訓練，實現了Linly-ChatFlow對話模型。

https://github.com/CVI-SZU/Linly
https://mp.weixin.qq.com/s/zSxsArP1pxYNubNDZua7iA

Baize

主要是通過利用ChatGPT 的功能自動生成高質量的多輪聊天語料庫來「解決數據集缺乏問題。其中主要是通過讓ChatGPT 與自己進行對話，模擬用戶和AI機器人的回复」。這個生成的語料數據集是在多輪對話的背景下訓練和評估聊天模型的寶貴資源。此外，通過指定種子數據集，可以從特定領域進行採樣，並微調聊天模型以專門針對特定領域，例如醫療保健或金融。

本文主要重點是改進開源大型語言模型LLaMA，相信它有望成為專有聊天模型的解決方案。通過使用我們生成的聊天語料庫對LLaMA 進行微調，作者訓練了一個名為Baize的新模型。「Baize 是一種可以在單個GPU上運行的聊天模型」，使其可供更廣泛的研究人員使用。在文中，作者的中心思想主要包括數「據集生成」、「模型參數調優」兩個方面。具體的流程如下圖所示：

https://zhuanlan.zhihu.com/p/620582990

TonTon Huang Ph.D. | Deep Learning 101

搜尋此網誌

解析探索大型語言模型：模型發展歷史、訓練及微調技術的 VRAM 估算