看板 DataScience 關於我們 聯絡資訊
文組PM剛接觸NLP,不懂機器的規格,但是之前上課的講師有提到一般小企業要短時間得到BERT的輸出結果不太可能,因為成本太高,但是有聽沒有懂。 請問為什麼?BERT真的很吃電還是買這個軟體很貴? 求大神解釋…GOOGLE都是一堆程式碼看不懂… ----- Sent from JPTT on my iPhone -- 背叛的滋味 大概就像精液吧 淡淡的沒滋沒味卻能教人嘔吐 咬緊牙關吞下去也就沒什麼了 真的就沒什麼了... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.83.33 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1644343510.A.CC2.html
OnePiecePR: 兩三年前看過新聞、訓練 bert large 只要一個小時… 02/09 08:37
OnePiecePR: 但是需要大約nvidia v100的1000 個gpu, 如果是一張 v 02/09 08:37
OnePiecePR: 100有16個 gpu, 略估是60張, 一張 如果1000美金… 02/09 08:37
OnePiecePR: 不過、我們應該不需要從頭開始訓練 02/09 08:39
ILYY: BERT如果用在一般應用只要Fine Tune 用一般顯卡就可以了 02/09 08:54
ILYY: 沒有必要的話不用重頭訓練 02/09 08:54
chang1248w: 最近的紀錄好像兩分鐘 02/09 09:59
chang1248w: bert有放出參數啊,單就預測一張1060應該十五秒就可 02/09 10:07
chang1248w: 以把一段文章轉成向量。 02/09 10:07
chang1248w: 但要從零開始訓練出bert,單就電費就要7000美 02/09 10:10
chang1248w: 資料集34億個詞,70GB以上 02/09 10:19
chang1248w: 好在這類大模型都有公開已經訓練好的模型參數,像上 02/09 10:24
chang1248w: 面講的通常只需要在訓練好的模型後面加兩層神經網路 02/09 10:24
chang1248w: 去適應你的任務,就能有可接受的結果了 02/09 10:24
chang1248w: 這樣大概一張2080就能跑 02/09 10:25
penniless: fasttext了解一下,便宜好用 02/09 16:38
peter308: 國高那邊要不要試看看? 02/11 12:32
peter308: 他們的Taiwania2 至少會有1000顆GPU吧? 02/11 12:33
KindWei: 很快的 只要找你們應用場域的 pretrain bert embedding ( 02/11 20:58
KindWei: e.g. FinBERT) 甚至不用fine tune 就有不錯的效果了 02/11 20:58
Bujo: 只要拿現成的模型來訓練你的資料就好,然後再設計你的輸出 02/12 22:05
hsuchengmath: 通常是拿pretrain好的bert encoder來使用,基本的be 03/15 08:07
hsuchengmath: rt model的參數數量使用空間為400M, 你可以預留2G 03/15 08:08
hsuchengmath: 的記憶體 比較保險 03/15 08:08