推 a3831038 : 趕快推,免得被人說看不懂 05/30 00:52
推 windrain0317: 推,尤其300k後直接call廠商是良心建議 05/30 00:53
推 rtwodtwo : NVMe要拉高隨機存取IOPS => 900P/905P 05/30 00:55
拉高IOPS的另一種說法是降低latency
唯一做法就是換Optane
8xSAMSUNG 970 PRO 1TB 贏不了900p 我測過了
過一個RAID還會增加延遲 IOPS反而下降
但容量 隨機寫 連續讀寫 還是有幫助 就看目的
推 hprince : 推 05/30 01:04
※ 編輯: fo40225 (140.112.16.145), 05/30/2019 01:08:08
推 xiemark : 純c的caffe train快多了。 05/30 01:10
推 WARgame723 : 簡單來說.買intel 05/30 01:12
推 onepunchgg : 同一樓wwwww 05/30 01:16
推 hizuki : 深度解析 05/30 01:20
推 m54ak : 這篇可以m起來 05/30 01:24
推 MrDisgrace : Intel MKL奧步這個問題真的很大XD 05/30 01:44
推 gaade : 不同的機器作不同的事,別再看跑分評論不同設計的系 05/30 01:44
→ gaade : 統囉~ 05/30 01:44
推 NX9999 : 推!!@@ 05/30 01:57
推 SahoYaho : 大佬來了 看得好爽 05/30 02:02
推 Zinsei : 推用心 05/30 02:10
推 WFSGT : 推 05/30 02:12
推 piyopiyolee : a跑比i快就說真香,比較慢就喊奧步,跟政治人物一樣 05/30 02:22
推 tom282f3 : 太專業 05/30 02:26
推 ctweng13 : 請問,i9 9900k與2697 V3,那顆CPU比較適合跑M.L? 05/30 02:39
要看情境
9900k就是小台的機器
64G RAM + 1~2GPU
2697v3應該是雙路大台的機器
爆幹大的RAM + 4~8GPU
大台的機器拆成小台給多人用 會比買一堆小台的給多人用起來慘
一堆小台的機器很難在需要大量算力時湊成一台大台的
(可以挑戰從eBay上買拆機100Gbps網卡組叢集 成功了功力++)
所以取決於你的需求
推 stephen2232 : 某樓不然你來換個說法阿 05/30 02:53
推 is2586537 : 推經驗分享跟認真分析 05/30 03:06
推 Etern : 推 05/30 03:08
推 ping860622 : 這篇真的要推 05/30 03:09
推 BaWanYi : 簡介也能這麼精闢,推 05/30 03:15
推 william25520: 同一樓 05/30 03:21
推 BambooGrove : 強 05/30 03:23
推 MrDisgrace : 商用沒美國時間給你整個重寫 開源授權不給包 無解XD 05/30 03:24
推 h311013 : 錢 05/30 03:34
推 cory8249 : 推 05/30 03:39
推 Higana : 優文 不推對不起自己 05/30 03:39
推 a007son : 中文真的難,都說程式碼有針對i皇最佳化了還要護航 05/30 03:43
推 firex10 : 推112大佬 05/30 03:44
推 jeff40108 : 免費經驗分享真佛 05/30 03:51
推 remia81 : 推 05/30 03:57
推 a2470abc : mkl真的很機掰 05/30 03:58
推 KuChanTung : 解釋一下,最近剛買的450K的Server,只有個人使用, 05/30 04:26
→ KuChanTung : 主要也是因為其他GPU Server多人同時上線掛機運算 05/30 04:26
→ KuChanTung : 模型,資源不夠使用,再弄Server,本文其他部分, 05/30 04:26
→ KuChanTung : 完全說明DL研究者心聲,推。 05/30 04:26
推 KuChanTung : 另外因為散熱因素,我個人不建議在單一4 GPU Server 05/30 04:38
→ KuChanTung : 配RTX *4,完全無法跑出應有效能。 05/30 04:38
→ bubunana : 推...我記得NV跟i 都有直接在112資院直接建DL lab 05/30 04:48
→ bubunana : 要什資源直接申請就好 內部還會直接美國派一個 DL P 05/30 04:48
→ bubunana : HD 當窗口 所以好奇怎麼還需要額外掏錢買設備? 05/30 04:48
→ jeff40108 : 樓上484搞錯因果關係了? 05/30 05:00
→ jeff40108 : 就是因為有花錢買設備才派人來支援 05/30 05:01
→ jeff40108 : 就算有合作案也不是合作了全院都免費用到爽 05/30 05:02
推 sma1033 : 如果有用到MKL確實「某些運算」會快一些,但是能否 05/30 05:03
→ sma1033 : 用MKL用到造成速度有顯著加速就是Case by case 05/30 05:04
推 sma1033 : 用AMD的CPU每顆核心比較弱一點,就是要把工作負載 05/30 05:11
→ sma1033 : 拆開分散,來最佳化多核心的優勢 05/30 05:12
→ bubunana : 不是喔 是直接進學校 建lab 算是產學合作喔 另外樓 05/30 05:16
→ bubunana : 主講了Optane應用不然在PTT應該被噴了跟垃圾沒兩樣 05/30 05:16
推 BlackCoal : 趕快推,雖然我文組完全看不懂 05/30 05:19
→ bubunana : 當然不是全院用到爽 我只是針對樓主經驗 應該是合作 05/30 05:20
→ bubunana : 範圍內 而且實驗室畢業PhD 有蠻大機會直接進Intel l 05/30 05:20
→ bubunana : ab 不過要稱幾年intern 05/30 05:20
推 sdriver : 現在不都直接租雲端嗎 05/30 05:54
推 simon78410 : 看吧 用AMD當工作站根本自找麻煩 05/30 06:11
推 bunjie : 這篇可以M了 05/30 07:01
噓 peter0517 : 推 05/30 07:04
推 peter0517 : 靠邀 按錯 05/30 07:08
推 hdotistyle : 推一樓 05/30 07:30
推 k073322524 : 推 05/30 07:57
推 deathagel16 : 非常感謝這位前輩!!後續會再與老闆溝通,這篇文也會 05/30 08:02
→ deathagel16 : 給老闆參考 05/30 08:02
推 comipa : 好文推 05/30 08:06
→ Angesi : 你對半精度的概念有誤 05/30 08:26
→ Angesi : 只是一昧的要求vram大 完全不考慮精度的選擇 05/30 08:27
→ Angesi : 真的蠻慘的喔~ 05/30 08:28
半精度/混合精度的訓練當然是非常tricky
速度雖然快 vram用量有機會減半 但不一定train得起來
沒解決也只能用fp32跑
單精度fp32的狀況下
V100 GV100 TITAN V TITAN RTX 2080ti 1080ti
(其實沒有差很多)
雙精度fp64在深度學習比較少見
跑模擬或工程CAD才會用到 (這時才買Quadro)
VRAM大能放複雜的模型或是batch size更大
更大的batch size比較能提升GPU利用率
(調高batch size後 計算速度變快是因為GPU與VRAM頻寬使用率上升
這兩種滿載後 batch size調更大也不會加速
滿載下才是比晶片算力還有記憶體頻寬 HBMvsGDDR)
雖然batch size大不一定收斂得比較快(時間上)
但大VRAM至少能讓你有選擇的空間
推 amin0811 : 這篇文真的算是範本了...真心建議收進精華區... 05/30 08:44
→ amin0811 : 裡面的概念想法幾年後應該也適用(硬體舊了汰換而已) 05/30 08:45
推 jason4571 : 優文 05/30 08:53
推 silk10268 : 推 05/30 08:59
推 x941u4vu86 : 還是推RYZEN 2990WX,買INTEL的都盤子 05/30 09:04
推 john60111 : 字太多了,先推再說 05/30 09:04
推 tgenie : 好像有點專業,推個 05/30 09:13
推 YandereLove : 優質 05/30 09:17
※ 編輯: fo40225 (140.112.16.145), 05/30/2019 09:56:43
推 AnnaAJ : 不明覺厲 05/30 09:40
推 windrain0317: 真的要工作AMD要就直上EPYC 05/30 09:43
→ windrain0317: 2990WX很多奇葩狀況會讓人傻眼 05/30 09:44
推 vykhodila : 推分享 非常實用 05/30 09:45
推 jason2325 : 優文推 05/30 09:47
推 JKGOOD : 待過公家單位真的覺得就算有能力還是全部找廠商就好 05/30 09:53
→ JKGOOD : ,出事有人擔下班不用被call 05/30 09:53
推 menshuei : 盼AMD能夠加速人工智慧運算功能的建立,不僅要算的 05/30 09:58
→ menshuei : 快,算的好,更重要的是能夠有智慧的算;未來的世 05/30 09:58
→ menshuei : 界是人工智慧的時代,AMD造CPU可要跟上趨勢才是。 05/30 09:58
推 xiemark : 改買Xilinx alveo FPGA卡做INT8 training 05/30 10:15
推 gaade : 不知道有使用epyc的機子的經驗分享嗎? 05/30 10:30
→ friedpig : 不過說真的 牙膏王自己花錢請RD寫的complier 人家沒 05/30 10:51
→ friedpig : 事幫忙弄別家的相容性幹嘛 不跑相容性最高的作法 到 05/30 10:52
→ friedpig : 時候編出來的東西再其他機器不能跑又是另一套說詞 05/30 10:52
推 AbeNana : 真優文 05/30 11:09
推 wobooyaw : 長姿勢文 05/30 11:10
推 GodBlessPP : 推 05/30 11:10
→ bubunana : i請了快1.5-1.8萬人 SW RD在搞這塊幾乎是fabless 全 05/30 11:13
→ bubunana : 公司員工總數 這還只 反算正職 不算約聘 既然是做資 05/30 11:13
→ bubunana : 科 就不該覺得 軟體是免費 不幫對手最佳化就是XX 05/30 11:13
→ bubunana : 另外做軟體或驅動的 在硬體設計公司已經夠可憐被消 05/30 11:19
→ bubunana : 費 流動率高 正如在MS Google做硬體的 不用太過苛責 05/30 11:19
推 david54001 : 長知識 05/30 12:08
推 clap : 超專業! 05/30 12:09
推 jasn4560 : M文不待處理的意思嗎? 為啥要M這篇文 我以為是要= 05/30 12:15
推 perfects1988: 推 05/30 12:18
推 twistedvate : 一分錢一分貨 05/30 12:25
推 anderleth : 推,專業文 05/30 12:32
推 maplefoxs : 高端操作 05/30 12:41
推 arrenwu : MKL也不能說是奧步啦XD 這也是為啥MATLAB上面Intel 05/30 13:01
→ arrenwu : CPU會快一點。可是我覺的深度學習應用上,瓶頸不是 05/30 13:01
→ arrenwu : CPU算的東西,所以MKL的優勢是還好 05/30 13:02
推 MrDisgrace : 要看只是沒最佳化 還是故意劣化XD 05/30 13:55
→ AmibaGelos : mkl就matlab/MMA app超爛的元兇啊 matlab怎麼處理 05/30 14:02
→ AmibaGelos : 不清楚 聽說MMA打算拋棄mkl lock-in真的會破壞生態 05/30 14:02
推 Jmoe : 良心建議 05/30 14:20
→ badyy : 硬體公司都是用SW當marketing/綁使用者,對使用者算 05/30 14:46
→ badyy : 免費啊 SIMD讚XD 05/30 14:46
→ badyy : 反正錢是花在買硬體上不是嗎?XD 05/30 14:47
→ badyy : 不然急著讓大家有平價的AVX512是好玩嗎? 05/30 14:48
→ skycat2216 : 其實我之前在ebay還是有看到有鼓風扇的Tesla,不過 05/30 15:35
→ skycat2216 : 是老的型號了 05/30 15:35
推 LOUlSVUITTON: 完全看不懂 但是推個 05/30 18:35
推 Ham10159 : 推專業大佬 05/30 18:45
推 user1120 : 推 05/30 19:08
推 goldie : 推 05/30 19:18
噓 nickball007 : 8700是文書機嗎???? 05/30 19:18
→ gaade : 差不多吧... 05/30 19:29
推 dogluckyno1 : 推 05/30 19:51
推 tofukingkion: 推 05/30 20:53
→ ashburr : AMD:我只設計CPU 沒錢優化 請自己來 05/30 21:03
推 i1k1y : 乾貨 讚 05/30 22:03
→ anedo : 8700十年之後也是文書機了.. 05/30 23:55
推 ticy : 推 05/31 09:44
推 zephyr105 : 推 05/31 10:18
推 nucleargod : 你說的是用 nv 寫好的軟體在跑ML吧 05/31 22:15
→ nucleargod : 真正自己在寫的人,根本不需要 nv 卡 05/31 22:15
→ nucleargod : 我之前就直接 A 卡寫 opencl 05/31 22:16
→ nucleargod : CPU 也絕對是同時全部吃滿 05/31 22:17
→ nucleargod : 那時候就會知道,單核效能完全無意義,看核心數就好 05/31 22:18
會用OpenCL全部自己來的大神
一定相當了解自己的程式需要什麼硬體資源 就不會上來問菜單了
但對於不懂的人寫出來的code 87%是需要單核效能
更不要說什麼花時間調整後
gcc + OpenBLAS + OpenCL @A+A
就能對抗
icc + MKL + CUDA @I+N
對於一般人來說還是太遙遠
※ 編輯: fo40225 (140.112.16.145), 06/01/2019 00:58:38
推 GoGoJoe : 可以中斷服務的應用,可以不用考慮Server。 06/01 20:47
※ 編輯: fo40225 (140.112.16.145 臺灣), 05/08/2020 18:46:01