推 OnePiecePR: 兩三年前看過新聞、訓練 bert large 只要一個小時… 02/09 08:37
→ OnePiecePR: 但是需要大約nvidia v100的1000 個gpu, 如果是一張 v 02/09 08:37
→ OnePiecePR: 100有16個 gpu, 略估是60張, 一張 如果1000美金… 02/09 08:37
→ OnePiecePR: 不過、我們應該不需要從頭開始訓練 02/09 08:39
推 ILYY: BERT如果用在一般應用只要Fine Tune 用一般顯卡就可以了 02/09 08:54
→ ILYY: 沒有必要的話不用重頭訓練 02/09 08:54
→ chang1248w: 最近的紀錄好像兩分鐘 02/09 09:59
→ chang1248w: bert有放出參數啊,單就預測一張1060應該十五秒就可 02/09 10:07
→ chang1248w: 以把一段文章轉成向量。 02/09 10:07
→ chang1248w: 但要從零開始訓練出bert,單就電費就要7000美 02/09 10:10
→ chang1248w: 資料集34億個詞,70GB以上 02/09 10:19
→ chang1248w: 好在這類大模型都有公開已經訓練好的模型參數,像上 02/09 10:24
→ chang1248w: 面講的通常只需要在訓練好的模型後面加兩層神經網路 02/09 10:24
→ chang1248w: 去適應你的任務,就能有可接受的結果了 02/09 10:24
→ chang1248w: 這樣大概一張2080就能跑 02/09 10:25
推 penniless: fasttext了解一下,便宜好用 02/09 16:38
推 peter308: 國高那邊要不要試看看? 02/11 12:32
→ peter308: 他們的Taiwania2 至少會有1000顆GPU吧? 02/11 12:33
推 KindWei: 很快的 只要找你們應用場域的 pretrain bert embedding ( 02/11 20:58
→ KindWei: e.g. FinBERT) 甚至不用fine tune 就有不錯的效果了 02/11 20:58
推 Bujo: 只要拿現成的模型來訓練你的資料就好,然後再設計你的輸出 02/12 22:05
推 hsuchengmath: 通常是拿pretrain好的bert encoder來使用,基本的be 03/15 08:07
→ hsuchengmath: rt model的參數數量使用空間為400M, 你可以預留2G 03/15 08:08
→ hsuchengmath: 的記憶體 比較保險 03/15 08:08