什麼是大語言模型,它是什麼?想要嗎?(Large Language Model,LLM)


開始之前,先瞭解一下很常聽到的 XX B 的這個 B,以及要怎樣計算需要多少 GPU VRAM
這裡的「B」表示10億 (Billion),即10^9。因此,7B表示70億個可訓練參數
現在多數模型參數大多數都是 float32,佔4個位元組 (bytes, 1 bytes = 8 bits)。
最好記的算法是每10億個參數,佔用 4GB GPU VRAM,精度每減半如fp16,VRAM也會減半
(實際上是 10^9*4/1024/1024/1024=3.725G,方便就先記為4GB)。
但這只是模型權重,你可能還需要考慮包含反向傳播的梯度、最佳化器所使用、正向傳播的啟動狀態記憶體。

以 fp32 推理 (單位為 GB):因為1 GB ≈ 1B字節,模型記憶體= 4 * 參數量 (位元組),總量約需≈ 1.2×模型記憶體

以 fp32 訓練 (單位為 GB) 至少:模型權重 4 * 參數量 + 優化器 12 * 參數量  + 梯度 4 * 參數量 + 啟動 

結論:假設是 Llama 2 70B 以 FP 32 做推論,那至少要 280 GB,低於這數字應該就是用了 int8 或者傳說中的 deep speed 的 ZeRO-Infinity 之類的,而這種做法,準確度會降,速度也會降的 (多張卡的數據、模型傳輸),因為你還得考慮 GPU到所謂SSD的傳輸速度。 (希望不要再有廠商四處亂唬弄人了)

Hugging Face 有篇不錯的說明文:Optimizing your LLM in production

    2023/11 更新 猶記得2023上半年大語言模型還有 LangChain,做了各種測試記錄,然後對整個集團子公司夥伴約300人+的分享,還有各種AI產品垂直落地規畫討論如雪花飛來,長官們都非常感興趣,然 ~ 後 ~ 就 .... 你知、我知、獨眼龍也知的好像?畢竟,算力?人力?數據等的需求就是擺在那邊,只能說都勉強還在可預期接受範圍,努力吧 ! 但感謝老闆們給了我不小的自由研究工作和靈活度也添購了相關設備 ! BUT,就是這個 BUT,一轉眼瞬間整個天崩地裂呢 ! 
    最近,因為OpenAI的GPT-3跟ChatGPT實在太火 (GPT-4 Turbo已於2023/11問世),大型語言模型夯到一發不可收拾;大家一定偶爾都會聽到高層們會問是不是可以自己訓練一個?更有人會問說為什麼我們不可以自己訓練一個?用一個3,000億個Token的公開網路資料集,訓練1,750億參數的GPT-3模型,若採用1,024張A100 GPU,還是要花上24天
    根據 Llama 2 其 model card,可以看到是今年1月~7月所訓練的,總計有70億、130億、700億三種版本,還有個340億的版本,然後數據量多了 40%,長度也更長,來到4096個token (Llama 1 只有 2048 個),更長的上下文可以讓模型處理更多信息,特別是更長的歷史記錄;需注意的是以英文場景為主,但含了 ba, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl. sr. sv. uk 等等,還有 zh 0.13% (繁中數據本來就不易製作啊:中研院資訊所對 CKIP-Llama-2-7b 之回應)。總共包含 760 個 NVIDIA DGX A100 系統作為其計算節點,總共 6,080 個 GPU,花費了330萬個GPU小時
    換句話說,想在一個月內訓練出參數量和ChatGPT相當的自有GPT-3模型,得採購128臺DGX A100超級電腦 (單臺8卡),光硬體費用就超過約新臺幣7.68億元,就算願意等上一年訓練一次,也至少要投資5千多萬元採購9套。若換成按月租用的超級電腦服務,以月租費113萬元X128個超級電腦VM,則約新臺幣1.4億元。其實就是這真的不是一般人(公司)可以玩的;畢竟台灣杉二號(台灣最大?)也只是由252個節點組成,每個節點包含2顆CPU及8顆 NVIDIA Tesla V100 32GB(共2016張)的GPU

    (source: https://tw.leaderg.com/article/index?sn=11473)
    撇開大家可能都很想直接翻高層白眼,前面時間跟價格寫得算蠻清楚 (聽說 GCP/Azure,V100*8 應該也要60W+/月?據可靠消息 4卡A100的80GB報價約300萬台幣),給各位高層們先看看自己口袋深不深 XD 當然那些整天四處嘴砲自己家開發了AI多強的,記得也先問問他們有幾張 GPU ? 但畢竟不是什麼都可以上雲,所以有沒有機會落地在自己行業領域裡,可以「商用」的垂直應用場景,似乎就更關鍵了。所以話題再回到 自己訓練一個?ChatGPT/ GPT-3 (Generative Pre-trained Transformer) 可以?為什麼不可能?有什麼方法可以改進修正或參考?
    首先,ChatGPT跟GPT-3或者GPT-4,我們就先別自欺欺人了,就算你口袋有那麼深,有那麼充足的人力,現在開始去訓練,只能說夢裡什麼都有 ! 所以咱們還是想想有無替代方案?以下排列以個人查詢、注意到或其發表時間,無任何比較 ! 以下文章已盡量保持無誤植,除了摘要相關報導或官網文字亦附上相關網址,轉載者也記得附上相關網址;如果有任何遺缺還請不吝撥空告知 ! PS: 百度的文心一言、商湯的日日新跟商量、阿里的通義千問、360的360搜索、Google的Bard還有Amazon的Titan等等,就不多加介紹了 !
    一切的起源都是Open AI 的 ChatGPT 後,草泥馬之亂(?)的起源 Meta AI 的 LLaMa ,再來則是一連串草泥馬變種,像是 Stanford-Alpaca 跟 Alpaca-Lora 還有 Vicuna 和 LMFlow 等,這些也都另外有人做了中文數據;另外就是有 BLOOM 跟 BELLE、Koala 等。BUT,就是這個BUT,OpenAI 這次不太 Open,像是 Stanford Alpaca 的 5.2 萬個問答數據集,是根據 OpenAI 的 ChatGPT 的輸出進行訓練的,而 OpenAI 的使用條款包括一條規則,即你不能使用 OpenAI 的服務反過來與其競爭;而基於 Meta Llama 1 開源的草泥馬(羊駝)系列模型也因為數據集等問題「僅限於學術研究類應用」! 

    這篇比不上Awesome-Chinese-LLM的完整與詳細,單純只專注我個人目前有實際跑過且可以 " 商業使用 ",以及優化訓練方式及速度還有數據集等。Cerebras、OpenChatKit、ChatChun、Dolly 2.0、StableLM、MOSS、Open Assistant、HuggingChat、Lamini、MPT、AutoGPT、HuggingGPT、MiniGPT-4、UltraChat、Koala、DeepSpeed Chat、Colossal AI、LLaMa、Stanford-Alpaca、BLOOM、BELLE、Alpaca-Lora、Vicuna、LMFlow、ChatGLM或者參考一下這裡,應該有更多的整理介紹:https://github.com/Deep-Learning-101/Natural-Language-Processing-Paper#llm


    Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
    從Meta的LLaMA發展出的羊駝家族一系列大模型,已成為開源AI重要力量。但LLamA開源了又沒全開,只能用於研究用途,還得填申請表格等,也一直被業界詬病。
    開源AI模型領域迎來一個重磅玩家,MosaicML發布MPT-7B系列模型,根據官方宣布的測試結果,MPT-7B的水平與MetaAI發布的LLaMA-7B水平差不多,屬於當前開源領域最強大的模型。最重要的是,MPT-7B系列中有一個可以支持最多65k上下文輸入的開源模型,比GPT-4的32k還高!應該是目前最長的!目前,MPT-7B模型系列包含4個,其中3個開源可商用,一個是非商用模型。
    https://www.mosaicml.com/blog/mpt-7b
    https://huggingface.co/mosaicml/mpt-7b
    https://huggingface.co/spaces/mosaicml/mpt-7b-instruct
    最新發布!截止目前最強大的最高支持65k輸入的開源可商用AI大模型:MPT-7B!


    HuggingChat:Powered by Open Assistant's latest model – the best open source chat model right now – and Hugging Face Inference API
    2023/04/26 00:00 由 Huggingface CTO 所發佈。
    「Open Assistant和HuggingChat是兩個相關的項目,都涉及使用深度學習技術和海量文本數據開發對話式人工智能。 它們的共同根源是Hugging Face Inc.,該研究實驗室專注於在文本生成和理解、計算機視覺和NLP等領域建立行業領先的人工智能技術。此外,HuggingChat代表的是聊天機器人或語言模型等方面,而Open Assistant則建立在這一基礎之上,具有額外的特性和功能,旨在更好地適用於更一般化的問題和答案。
    推動HuggingChat的AI模型是由Open Assistant開發的,Open Assistant是由德國非營利組織LAION組織的一個項目,該組織負責創建數據集,該數據集用於培訓文本到圖像的AI模型Stable Diffusion。Open Assistant旨在複製ChatGPT,但該組織 (主要由志願者組成) 有更廣泛的野心。
    Today is a big day as we launch the first open source alternative to ChatGPT: HuggingChat 💬
    Powered by Open Assistant's latest model – the best open source chat model right now – and Hugging Face Inference API.
    http://hf.co/chat
    https://huggingface.co/OpenAssistant/oasst-sft-6-llama-30b-xor
    Hugging Face releases its own version of ChatGPT
    https://techcrunch.com/2023/04/25/hugging-face-releases-its-own-version-of-chatgpt/

    BTW,我覺得提供的這個頁面,讓用戶幫忙標註這蠻不錯的 !
    Open Assistant
    非營利AI研究組織LAION專攻大型AI模型研究,最近,他們發起Open Assistant專案,號召開發者協作來打造ChatGPT類模型,並要免費開源給大眾。團隊說明,該專案的目標不只是仿造ChatGPT,而是要打造功能更強大的「未來助理」聊天機器人,這個助理不只要會寫Email和求職履歷,還要會用API與第三方互動、動態搜尋和取得所需資訊。團隊表示,這個助理還要能在消費級硬體上執行,讓大眾都能使用。
    OpenAssistant是可以商用的(僅限ElutherAI Pythia訓出來的),因為ElutherAI Pythia、OpenAssistant數據集、使用兩者調出來的模型都是Apache 2.0 License.
    OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.
    https://github.com/LAION-AI/Open-Assistant
    https://projects.laion.ai/Open-Assistant/


    Dolly 
    以Eleuther AI 2年前的模型為基礎,在單一機器上透過類似ChatGPT的指令訓練30分鐘而成,再以Alpaca模型的資料加以訓練微調,即可發揮其指令跟從的能力,像是腦力激盪、文字生成及開放性的問答等。
    https://github.com/databrickslabs/dolly
    Databricks公布生成性AI模型Dolly,強調比ChatGPT更容易訓練
    全球首個完全開源的大語言模型Dolly,性能堪比 GPT3.5!
    Databricks在釋出大型語言模型Dolly的兩週後,又釋出了Dolly 2.0,而第二個版本的重點在於開源且商業可用。Databricks 在官方部落格中指出,「用於訓練 Dolly 1.0 的資料集中,包含來自 ChatGPT 的輸出。史丹佛團隊明確提到,OpenAI 的服務條款試圖阻止任何人創建能夠與其競爭的 AI 模型。」
    Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基礎之上,為了規避這個問題並建立起可供商用的模型,Databricks 使用基於 EleutherAI 的 Pythia 模型家族中的 120 億參數語言模型,成功構建起了 Dolly 2.0。Databricks集結5,000名員工,共同編寫databricks-dolly-15k指令遵循資料集來訓練Dolly 2.0,現在Databricks對外開源整個Dolly 2.0,包括訓練程式碼、資料集和模型權重,供商業和學術使用。
    世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用
    Databricks開源可商用的指令遵循大型語言模型Dolly 2.0
    上圖是 dolly-v2-12b 的運行狀況,GPU 只需要 24 GB,MEM 則是32 GB,然後跑起來都報錯,開始研究怎樣解決 囧 !

    https://github.com/python/cpython/blob/6be7aee18c5b8e639103df951d0d277f4b46f902/Lib/inspect.py#L884
    File "/anaconda3/envs/2dolly/lib/python3.10/inspect.py", line 750, in cleandoc
    lines = doc.expandtabs().split('\n')
    AttributeError: 'list' object has no attribute 'expandtabs'
    https://learnku.com/docs/pymotw/inspect-inspect-live-objects/3490

    就這樣,體驗ChatGPT到底有多麼神奇的機會再次來臨;因為上面其實Google不到什麼靠譜的答案,所以就直接貼到ChatGPT的對話 ~ 然後 ~ MAGIC ~ 搞定,打完收工 ! XD


    MOSS
    復旦NLP團隊首發上線MOSS兩個月後,他們照承諾,真正的把MOSS開啟了。同時,MOSS也成為了中國首個搭載插件系統的開啟誘惑。這一次,復旦團的模型不僅更加成熟,而且還增加了「搜索引擎、計算器、解決方案、生成圖」等插件功能,何時可在線溜在FP16精度下單張A100/A800或兩張3090顯卡就能運行,而在INT4/8精度下只需要一張3090即可。(但還沒放出)
    What are differences between MOSS and ChatGPT?
    The number of parameters of MOSS is much fewer than ChatGPT. MOSS learns by talking to human and other AI models, while ChatGPT is trained with Reinforcement Learning from Human Feedback (RLHF). MOSS will be open-sourced to facilitate future research but ChatGPT may not.
    根據團隊成員孫天的詳細介紹,目前開源的版本稱為MOSS 003,而二月份公測的版本為MOSS 002,一個月的內測版本1為OpenChat 00。
    本項目所含代碼採用Apache 2.0協議,數據採用CC BY-NC 4.0協議,模型權重新採用GNU AGPL 3.0協議。如需本項目所含模範或者公開部署,請簽署本文件並發送至robot@fudan.edu.cn取得授權,商業情況只用於記錄,不會收取任何費用。言論,造成不良影響,由服務提供方負責,與本項目無關。
    https://github.com/OpenLMLab/MOSS
    https://txsun1997.github.io/blogs/moss.html
    至於這個,堪稱是測了這麼多個變型的大語言模型後,跑起來最簡單,用起來也最快速,效果也真的蠻理想的了 ! 勵害了 !!! 需注意的是這是開了4張32GB的V100,然後記憶體吃了快100GB跑起來的效果啊 !



    Baichuan
    2023年6月15日,百川智能才剛剛發布其第一款70億參數量的中英文語言模型Baichuan-7B。當時的版本便已經拿下多個世界權威Benchmark榜單同量級測試榜首;同樣作為開源大模型,據說清華北大都已經用上了。僅僅時隔25天,更大、更強的版本再次襲來。
    Baichuan-13B:中英雙語大模型,130億參數,在1.4萬億token數據集上訓練,完全開源、免費可商用。1.4萬億ztoken這個訓練數據量,超過LLaMA-13B訓練數據量的40%,是當前開源的13B尺寸模型世界裡,訓練數據量最大的模型。
    對學術研究完全開放,開發者均可通過郵件向百川智能申請授權,在獲得官方商用許可後即可免費商用。
    王小川大模型25天再升級!13B版本開源免費可商用,3090即可部署
    https://mp.weixin.qq.com/s/sFVAgypEptxa6qCYcHix9g
    https://huggingface.co/baichuan-inc/Baichuan-13B-Base
    https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
    https://github.com/Baichuan-inc/Baichuan-13B


    Lamini:Create your own LLM. Stop prompt-tuning.
    2023/04/30 尚未完全開放哦 !
    Lamini 是一個LLM 引擎,供開發人員使用很多公司、機構的基礎模型快速構建定制化模型:你可以用OpenAI、EleutherAI、Cerebras、Databricks、HuggingFace、Meta 等公司的技術做自己的,只要他們開源就可以。
    Lamini 是一個LLM 引擎,它允許開發人員只使用Lamini 庫中的幾行代碼,就能在大型數據集上訓練出高性能的LLM。Lamini 庫涵蓋對機器學習模型的多種優化,包括簡單的優化(例如消除模型「幻覺」)和更具挑戰性的優化(例如RLHF)。
    神奇LLM引擎上線:幫你把GPT-3直接調成ChatGPT
    https://www.jiqizhixin.com/articles/2023-04-29-3
    https://lamini.ai/
    https://lamini-ai.github.io/


    元語智能 (ChatYuan):2023/01/13
    中國的,下面有個知乎的連結蠻清楚的 ! 簡單參考一下 ! 有DEMO,用起來體驗還可以,有時候生成的文字比較特別一點就是 ! 一個支持中英雙語的功能型對話語言大模型,ChatYuan-large-v2使用了和v1版本相同的技術方案,在指令微調、人類反饋強化學習、思維鍊等方面進行了優化。另外在網路上查到這樣的介紹:底層採用7億參數規模的T5模型,並基於PromptClue進行了監督微調形成了ChatYuan。該模型基本上是ChatGPT技術路線的三步的第一步,沒有實現獎勵模型訓練和PPO強化學習訓練。
    https://github.com/clue-ai/ChatYuan
    https://huggingface.co/ClueAI/ChatYuan-large-v2

    上圖是 ChatYuan 的運行狀況,GPU 居然只需要 4 GB,MEM 則是 18-20 GB,然後跑起來。。。嗯,效果堪慮 囧 !


    OpenChatKit:2023/03/11
    原始碼、模型權重和訓練資料集全部公開。它叫OpenChatKit,由前OpenAI研究員共同打造。總的來說,OpenChatKit開箱即用,擅長多項任務,包括具有上下文的總結和問題回答、資訊提取、文本分類等。但它還不太擅長創意寫作(尤其是編長故事)、寫程式,以及有時可能會重複回應你的請求、在切換話題時表現遲鈍;不過,正如Together在部落格中說的那樣:這個模型不是發表完就結束了,它是一個開源專案的開始。
    https://github.com/togethercomputer/OpenChatKit
    ChatGPT 替代品 OpenChatKit 來了!由前 OpenAI 團隊打造,在 GitHub上 開源發表
    https://www.techbang.com/posts/104629-chatgpt-open-source-is-here-out-of-the-box-founded-by-the


    Cerebras-GPT: A New Model For Open LLM Development:2023/04/06
    https://github.com/Cerebras/modelzoo
    Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster
    https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/
    免费可商用开源GPT模型来了,50G权重直接下载,性能不输GPT-3
    https://zhuanlan.zhihu.com/p/618893184


    HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
    相關摘要簡介:LLM主要交互的對像是文本,但現實世界中的任務涉及到多種模態:包括但不限於語音、圖像、文本。同時一個複雜的任務可以被分解為多個子任務,而這些子任務一般需要領域專用的模型才能取得更好的結果。因此,一個自然而然的想法就是同時使用LLM和領域專用模型,來解決現實世界中的複雜問題。具體到HuggingGPT上,它選用ChatGPT作為LLM,利用ChatGPT進行任務規劃、模型選擇、響應生成;選用浙大&微软推出的HuggingFace上豐富的AI模型作為領域專用模型來負責任務執行。簡單來講,HuggingGPT是一個協作系統,並非是大模型。到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文本到視頻等24個任務。
    https://arxiv.org/pdf/2303.17580.pdf
    https://github.com/microsoft/JARVIS
    https://huggingface.co/spaces/microsoft/HuggingGPT (需 open ai api key)
    ChatGPT長出手,打造最強「賈維斯」!出一張嘴就能讓AI命令AI,怎麼做到?

    AutoGPT:An experimental open-source attempt to make GPT-4 fully autonomous
    相關摘要簡介:一種新的趨勢:自主人工智能。 這不是空穴來風,最近一個名為 AutoGPT 的研究開始走進大眾視野。特斯拉前 AI 總監、剛剛回歸 OpenAI 的 Andrej Karpathy 也為其大力宣傳,並在推特讚揚:「AutoGPT 是 prompt 工程的下一個前沿。」一個實驗性的開源應用程序,展示了 GPT-4 語言模型的功能。該程序由 GPT-4 驅動,可以自主實現用戶設定的任何目標。
    https://github.com/torantulino/auto-gpt



    MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
    一個名為MiniGPT-4 的新模型:它使用先進的大型語言模型(LLM)--Vicuna(其中Vicuna 是基於LLaMA 構建的)進行調優,在文本語言方面可以達到ChatGPT 能力的90%。在視覺感知方面,作者採用了與BLIP-2相同的預訓練視覺組件,其中該組件由EVA-CLIP的ViT-G/14和Q-Former組成。
    https://minigpt-4.github.io/
    首发!MiniGPT-4 发布,代码模型开源,支持在线体验,好用再下载!!
    https://zhuanlan.zhihu.com/p/622670784

    DeepSpeed:一鍵式RLHF訓練,讓你的類ChatGPT千億大模型提速省錢15倍
    眾所周知,由於OpenAI太不Open,開源社區為了讓更多人能用上類ChatGPT模型,相繼推出了LLaMa、Alpaca、Vicuna、Databricks-Dolly等模型。 但由於缺乏一個支持端到端的RLHF規模化系統,目前類ChatGPT模型的訓練仍然十分困難。而DeepSpeed Chat的出現,正好補全了這個「bug」。
    https://github.com/microsoft/DeepSpeed
    https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md
    人手一個ChatGPT!微軟DeepSpeed Chat震撼發布,一鍵RLHF訓練千億級大模型

    Colossal-AI: Making large AI models cheaper, faster, and more accessible:2022/09
    讓AI大模型更低成本、方便易用、高效擴展;這個請先參閱網路上的文章,測試中 !
    https://github.com/hpcaitech/ColossalAI
    Colossal-AI用單張消費級顯示卡,就可以低成本重現ChatGPT完整演算流程,已開源
    開源了 650 億參數 LLaMA 低成本預訓練方案,相比業界其他主流選擇,可提升預訓練速度 38%,僅需 32 張 A100/A800 即可使用,並且不限製商業使用。

    UltraChat
    單就數據而言,高質量的數據至關重要,為此OpenAI 對數據和標註工作下了很大力氣。有多項研究表明,ChatGPT 是比人類更加可靠的數據標註者,如果開源社區可以獲得ChatGPT 等強大語言模型的大量對話數據,就可以訓練出性能更好的對話模型。這一點羊駝系列模型——Alpaca、Vicuna、Koala—— 已經證明過。例如,Vicuna 使用從ShareGPT 收集的用戶共享數據對LLaMA 模型進行指令微調,就復刻了ChatGPT 九成功力。越來越多的證據表明,數據是訓練強大語言模型的第一生產力。僅限於學術研究或不能商業使用
    https://github.com/thunlp/UltraChat
    調用多個ChatGPT API相互對話,清華開源的多輪對話數據UltraChat來了

    ChatGLM:千億基座的對話模型開啟內測:2023/03/13
    [2023.05.09]ChatGLM-6B 全球下載達到160萬,
    [2023.03.18]ChatGLM-6B 登上Hugging Face Trending 榜第一,持續12天
    根據介紹,應該是清華大學實驗室和智普AI合作的,ChatGLM-6B 是一個開源的、支持中英雙語問答的對話語言模型,並針對中文進行了優化。該模型基於 General Language Model (GLM) 架構,具有 62 億參數。結合模型量化技術,用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。
    https://chatglm.cn/blog
    https://github.com/THUDM/ChatGLM-6B
    https://huggingface.co/THUDM/chatglm-6b
    https://huggingface.co/spaces/multimodalart/ChatGLM-6B
    上圖是 ChatGLM-6 的運行狀況,GPU 只需要13-14 GB,MEM 則是24-25GB,但跑起來都效果略糟 囧 ! 至於130b 現在看來只提供做生成式的克漏問答
    ChatGLM2-6B升級1:基座模型升級,性能更加強大
    ChatGLM2-6B升級2:更長的上下文
    ChatGLM2-6B升級3:更高效的推理,更快更便宜!
    ChatGLM2-6B升級4:更加開放的協議
    在第一代ChatGLM-6B模型中,有一個比較遺憾的是它的模型開源協議限製較大,完全禁止商用。而第二代的ChatGLM2-6B則宣佈對學術研究完全開放,而且允許申請商用授權,不過需要書麵申請,並且冇有說明是否收費。


    BLOOM (BigScience Large Open-science Open-access Multilingual Language Model):2022/07/12
    BLOOM是由HuggingFace推出的大模型,其參數量達到176B(GPT-3是175B)。目前超過100B參數量且能夠支援中文的開源大模型有BLOOM和GLM-130B。由於HuggingFace是著名開源工具Transformers的開發公司,很多推理工具都會支援Transformers中的模型。
    https://huggingface.co/bigscience/bloom
    BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
    https://arxiv.org/pdf/2211.05100.pdf
    具備1,760億個參數的語言模型BLOOM開源了

    StableLM: Stability AI Language Models
    Stable Diffusion 也出語言大模型了,效果還挺好。本週三,StableLM 的發布引來了科技圈的關注。 Stability AI 是近期勢頭正盛的創業公司,因為開源的AI 畫圖工具Stable Diffusion 而飽受好評。在周三的發布中,該公司宣布其語言大模型現已可供開發人員在GitHub 上使用和改編。
    Base model checkpoints (StableLM-Base-Alpha) are licensed under the Creative Commons license (CC BY-SA-4.0). Under the license, you must give credit to Stability AI, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the Stability AI endorses you or your use.
    Fine-tuned checkpoints (StableLM-Tuned-Alpha) are licensed under the Non-Commercial Creative Commons license (CC BY-NC-SA-4.0), in-line with the original non-commercial license specified by Stanford Alpaca.
    All code in this repository is licensed under the Apache License 2.0 license.
    https://github.com/stability-AI/stableLM/
    https://www.jiqizhixin.com/articles/2023-04-21-7
    https://huggingface.co/spaces/stabilityai/stablelm-tuned-alpha-chat

    LLaMA (Large Language Model Meta AI):2023/02/24
    Meta 宣佈推出最新的 LLaMA (Large Language Model Meta AI) 大型語言模型 (LLM) 並公開研究論文,Google LaMDA、OpenAI 的 GPT 機密的訓練資料與演算法不同,LLaMA 是以公開資料進行訓練,成果也較開放。這個模型有從 70 億到 650 億個參數各種大小的版本,重點在拉丁文和斯拉夫字母等20種語言進行訓練。也強調用更低的算力需求擁有超過 OpenAI 有 175 億參數的 GPT-3 模型 (ChatGPT 採用 GPT-3.5),還強調 LLaMA 有計算能力並適合用於科學研究。值得注意的是有查到這樣一段報導:「Meta 的目標是與研究社群的成員分享最先進的 AI 模型,以幫助 Meta 評估和改進這些模型。LLaMA 是出於研究目的而共享的,這與我們之前共享大型語言模型的方式一致。」所以,不能商用的;這也包括了以下任何基於 LLaMA 所延生出來的 !?
    https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
    https://github.com/facebookresearch/llama


    Stanford Alpaca:2023/03/13
    草泥馬 (羊駝):ChatGPT 學術版開源實現 Alpaca 本身的介紹 blog 其實說的非常清晰了,模型的訓練流程基本可以概括為 52K 個 intruction-following examples 來微調 Meta 的大語言模型 LLaMA 7B (Meta 開放了模型權重以及 Inference 代碼,從而生成了 Alpaca 7B。
    Alpaca: A Strong, Replicable Instruction-Following Model

    Alpaca-LoRA (low-rank adaptation):2023/03/14
    ChatGPT 輕量級的開源版本 Alpaca-Lora,它使用 Lora (Low-rank Adaptation) 技術在 Meta 的 LLaMA 7B 模型上微調,只需要訓練很小一部分參數就可以獲得媲美 Standford Alpaca 模型的效果。
    查到這樣一段解說:關於 Alpaca-Lora 和 Stanford Alpaca 的區別,Stanford Alpaca 是在 LLaMA 整個模型上微調,而 Alpaca-Lora 則是利用 Lora 技術 (LoRA: Low-Rank Adaptation of Large Language Models),在凍結原模型 LLaMA 參數的情況下,通過往模型中加入額外的網路層,並只訓練這些新增的網路層參數。由於這些新增參數數量較少,這樣不僅 finetune 的成本顯著下降,還能獲得和全模型微調類似的效果。
    https://github.com/tloen/alpaca-lora
    Alpaca-Lora:訓練你自己的ChatGPT

    Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality:2023/03
    同樣是基於Meta開源的LLaMA大模型微調。與此前斯坦福大學基於LLaMA的Alpaca不同的是,盡管也薅了ChatGPT羊毛:用了ChatGPT生成的數據,但Vicuna所用的數據來自ShareGPT,而不是直接用OpenAI的API生成。ShareGPT是一個分享ChatGPT對話的Google插件,目前擁有超過11萬對話數量。
    https://vicuna.lmsys.org
    https://github.com/lm-sys/FastChat

    BELLE: Be Everyone's Large Language model Engine:2023/03/17
    Alpaca 的種子任務都是英語,收集的數據也都是英文,因此,訓練出來的模型未對中文優化。 為了提升對話模型在中文上的效果,BELLE基於斯坦福的 Alpaca,對中文進行了優化,並對生成代碼進行了一些修改。不僅如此,該項目的模型調優僅使用由 ChatGPT 生産的數據 (不包含任何其他數據)。通過20 萬、60 萬、100 萬和 200 萬樣本等不同大小規模的指令學習的數據集訓練模型,得到不同的模型版本。
    https://github.com/LianjiaTech/BELLE


    LMFlow:An Extensible Toolkit for Finetuning and Inference of Large Foundation Models.
    在有限的計算資源,也能讓使用者針對專有領域支持個性化訓練。基於 70 億參數的 LLaMA,只需 1 張 3090、耗時 5 個小時,就可以訓練一個專屬於自己的個性化 GPT,並完成網頁端部署。開源庫作者們已經利用這個框架單機訓練 330 億參數的 LLaMA 中文版,並開源了模型權重用於學術研究。
    https://github.com/OptimalScale/LMFlow
    http://lmflow.com
    3090單卡5小時,每個人都能訓練專屬ChatGPT,港科大開源LMFlow


    Koala: A Dialogue Model for Academic Research:2023/04/03
    UC伯克利发布对话模型 Koala,让"羊驼"模型更强大!
    https://zhuanlan.zhihu.com/p/619700344


    Firefly(流螢): 中文對話式大語言模型
    Firefly(流螢) 是一個開源的中文對話式大語言模型,使用指令微調(Instruction Tuning)在中文數據集上進行調優。同時使用了詞表裁剪、ZeRO、張量並行等技術,有效降低顯存消耗和提高訓練效率。在訓練中,我們使用了更小的模型參數量,以及更少的計算資源。
    https://github.com/yangjianxin1/Firefly


    伶荔(Linly)
    為了開發高性能中文基礎模型,填補中文基礎模型百億到千億級預訓練參數的空白,大數據系統計算技術國家工程實驗室副主任、深圳大學計算機與軟件學院沈琳琳教授團隊在人工智能項目“伶荔(Linly)”支持下,推出了伶荔說系列中文語言大模型,目前包含中文基礎模型和對話模型。其中,中文基礎模型以LLaMA為底座,利用中文和中英平行增量預訓練,將它在英文上強大語言能力遷移到中文上。更進一步,匯總了目前公開的多語言指令數據,對中文模型進行了大規模指令跟隨訓練,實現了Linly-ChatFlow對話模型。
    https://github.com/CVI-SZU/Linly
    https://mp.weixin.qq.com/s/zSxsArP1pxYNubNDZua7iA


    Baize:一個以中國神獸(白澤)命名的LLM模型,可單卡GPU運行
    主要是通過利用ChatGPT 的功能自動生成高質量的多輪聊天語料庫來「解決數據集缺乏問題。其中主要是通過讓ChatGPT 與自己進行對話,模擬用戶和AI機器人的回复」。這個生成的語料數據集是在多輪對話的背景下訓練和評估聊天模型的寶貴資源。此外,通過指定種子數據集,可以從特定領域進行採樣,並微調聊天模型以專門針對特定領域,例如醫療保健或金融。
    本文主要重點是改進開源大型語言模型LLaMA,相信它有望成為專有聊天模型的解決方案。通過使用我們生成的聊天語料庫對LLaMA 進行微調,作者訓練了一個名為Baize的新模型。「Baize 是一種可以在單個GPU上運行的聊天模型」,使其可供更廣泛的研究人員使用。 在文中,作者的中心思想主要包括數「據集生成」、「模型參數調優」兩個方面。具體的流程如下圖所示:

    https://zhuanlan.zhihu.com/p/620582990