看板 AI_Art 關於我們 聯絡資訊
有人對這塊有研究或有興趣的嗎? 我目前在摸Llamaindex跟Langchain,有想分享想討論都很歡迎, 主旨都是在討論怎麼讓語言模型根據事實資料庫做回應。 如果覺得這樣講很抽象,提供一份文件參考: https://reurl.cc/lDL47Y 是我用GPT翻譯OpenAI官方Github文件的其中一篇,大家可以閱讀看看。 節錄- 為何搜尋比微調更好 GPT可以以兩種方式學習知識: 透過模型權重(即,在訓練集上微調模型) 透過模型輸入(即,將知識插入到輸入訊息中) 雖然微調可能看起來是更自然的選擇——畢竟,透過數據訓練是GPT學習所有其他知識的 方式——但我們通常不建議將它作為教導模型知識的方式。微調更適合教授專門的任務或 風格,對於事實記憶的可靠性較差。 作為類比,模型權重就像長期記憶。當你微調一個模型時,就像是為一周後的考試做準備 。當考試到來時,模型可能會忘記細節,或錯誤記憶它從未讀過的事實。 相比之下,訊息輸入就像短期記憶。當你將知識插入到一條訊息中時,就像是帶著筆記參 加開卷考試。有了筆記在手,模型更可能得出正確的答案。 相對於微調,文本搜尋的一個缺點是每個模型都受到它一次能讀多少文本的限制: 模型 最大文本長度 gpt-3.5-turbo 4,096 tokens (~5頁) gpt-4 8,192 tokens (~10頁) gpt-4-32k 32,768 tokens (~40頁) 延續這個類比,你可以將模型想像成一個學生,儘管可能有書架上的教科書可供參考,但 他一次只能看幾頁筆記。 因此,為了建立一個能夠利用大量文本回答問題的系統,我們建議使用搜尋-問答的方法。 -- AI_Art AI藝術與創作板 歡迎各方前來討論AIGC創作與相關議題! AI情報屋營業中 噗浪:https://www.plurk.com/Zaious IG :https://www.instagram.com/zaious.design/ 日曆:https://zaious.notion.site/zaious/22c0024eceed4bdc88588b8db41e6ec4 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.61.231 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1684914563.A.70B.html
teds: 有興趣+1 05/24 16:12
reader2714: Lora就是算在前者嗎 05/24 18:03
ZMTL: 對 Lora在做的應該是對語言模型的是Fine-tune 05/24 18:20
ZMTL: 但我接觸過業界有嘗試Fine-tune的分享案例,包括玉山銀行、 05/24 18:20
ZMTL: 台灣大哥大都有說過,通常越tune越笨 05/24 18:20
ZMTL: 因為你給他的資料可能整理的不夠好、或取向太偏頗,導致整個 05/24 18:21
ZMTL: 調完的模型失衡,反而沒辦法做到預期語言模型能做的事情 05/24 18:21
ZMTL: 所以前面分享過的台智雲,他說他們的專業就在Fine-Tune的掌 05/24 18:22
ZMTL: 握度(先把BLOOM調成繁中的FFM,接下來可以幫你企業去調) 05/24 18:22
ZMTL: - 05/24 18:22
ZMTL: 目前業界共識是,客服機器人請用Embedding 05/24 18:22
ZMTL: 你可以微調,但當你要做事實查詢、根據資料回答問題,一定要 05/24 18:23
ZMTL: 翻資料庫 05/24 18:23
Vulpix: 所以我想要用金庸的口吻寫一部小說,就要用金庸的文章去 05/24 18:58
Vulpix: 微調,然後插入我的人物、門派?那他自己新生出來的文章也 05/24 19:00
Vulpix: 要循環插回去嗎? 05/24 19:00
ZMTL: 應該是用金庸文章去Finetune,然後寫劇情簡綱給他 05/25 10:52
Destiny6: https://github.com/imartinez/privateGPT 這個是第二 05/25 12:13
Destiny6: 種方式嗎? 05/25 12:13
Destiny6: https://github.com/Morizeyao/GPT2-Chinese 這個有金 05/25 12:37
Destiny6: 庸語料的樣子 05/25 12:37
ZMTL: 看到EMBEDDINGS就,對,是第二種 05/25 12:59
paul60209: 有興趣+1,我現在也在研究Langchain 08/07 18:10
paul60209: 做了一個簡單的demo如下 08/07 18:12
paul60209: https://reurl.cc/AArRgj 08/07 18:12