[問題] NLP跑BERT要什麼樣的機器才夠？

作者lirpassmore (里爾-帕斯魔)

看板DataScience

標題[問題] NLP跑BERT要什麼樣的機器才夠？

時間Wed Feb 9 02:05:06 2022

文組PM剛接觸NLP，不懂機器的規格，但是之前上課的講師有提到一般小企業要短時間得到BERT的輸出結果不太可能，因為成本太高，但是有聽沒有懂。請問為什麼？BERT真的很吃電還是買這個軟體很貴？求大神解釋…GOOGLE都是一堆程式碼看不懂… ----- Sent from JPTT on my iPhone -- 背叛的滋味大概就像精液吧淡淡的沒滋沒味卻能教人嘔吐咬緊牙關吞下去也就沒什麼了真的就沒什麼了... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.83.33 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1644343510.A.CC2.html

推 OnePiecePR: 兩三年前看過新聞、訓練 bert large 只要一個小時… 02/09 08:37

→ OnePiecePR: 但是需要大約nvidia v100的1000 個gpu, 如果是一張 v 02/09 08:37

→ OnePiecePR: 100有16個 gpu, 略估是60張, 一張如果1000美金… 02/09 08:37

→ OnePiecePR: 不過、我們應該不需要從頭開始訓練 02/09 08:39

推 ILYY: BERT如果用在一般應用只要Fine Tune 用一般顯卡就可以了 02/09 08:54

→ ILYY: 沒有必要的話不用重頭訓練 02/09 08:54

→ chang1248w: 最近的紀錄好像兩分鐘 02/09 09:59

→ chang1248w: bert有放出參數啊，單就預測一張1060應該十五秒就可 02/09 10:07

→ chang1248w: 以把一段文章轉成向量。 02/09 10:07

→ chang1248w: 但要從零開始訓練出bert，單就電費就要7000美 02/09 10:10

→ chang1248w: 資料集34億個詞，70GB以上 02/09 10:19

→ chang1248w: 好在這類大模型都有公開已經訓練好的模型參數，像上 02/09 10:24

→ chang1248w: 面講的通常只需要在訓練好的模型後面加兩層神經網路 02/09 10:24

→ chang1248w: 去適應你的任務，就能有可接受的結果了 02/09 10:24

→ chang1248w: 這樣大概一張2080就能跑 02/09 10:25

推 penniless: fasttext了解一下，便宜好用 02/09 16:38

推 peter308: 國高那邊要不要試看看？ 02/11 12:32

→ peter308: 他們的Taiwania2 至少會有1000顆GPU吧？ 02/11 12:33

推 KindWei: 很快的只要找你們應用場域的 pretrain bert embedding ( 02/11 20:58

→ KindWei: e.g. FinBERT) 甚至不用fine tune 就有不錯的效果了 02/11 20:58

推 Bujo: 只要拿現成的模型來訓練你的資料就好，然後再設計你的輸出 02/12 22:05

推 hsuchengmath: 通常是拿pretrain好的bert encoder來使用，基本的be 03/15 08:07

→ hsuchengmath: rt model的參數數量使用空間為400M, 你可以預留2G 03/15 08:08

→ hsuchengmath: 的記憶體比較保險 03/15 08:08