Re: [菜單] 200K深度學習機

作者fo40225 ()

看板PC_Shopping

標題Re: [菜單] 200K深度學習機

時間Thu May 30 00:43:57 2019

: 更新：謝謝各位大大的建議，跟老闆討論過後預計朝請廠商報小型工作站 : 的單子，預算雖然說是沒有問題但也可能沒辦法買DGX@@，讓電蝦的 : 各位失望了 : 非常謝謝各位的建議，還請有點火氣上來的前輩們消消氣原PO後來請廠商報小型工作站是聰明的決定十萬的單子還上來求建議表示對硬體的了解度沒有信心雖然廠商也不一定懂但讓廠商全權開規格之後有問題廠商可以協助處理廠商能除錯的資源還是比個人多些上頭的人追究下來也有個廠商負責 100萬內的科研採購雖然不用招標但也總要有個廠商陪著跑文件廠商多賺的錢就當服務費省心 ==== 所以深度學習的機器到底要怎麼買？剛好最近有些採購也略有研究以下是個人心得不一定正確在此做個筆記記錄 ==== 買電腦第一先問預算再問需求但這次先問需求真的需要一台GPU Server嗎? 在PC上開發模型，真正的大量資料上AWS、Azure、GCP、國網中心的雲端GPU做訓練如果這樣的工作流不符合需求 (反正會有各種理由不行) 那也只好買台ML主機放地上了如果預算沒有上限 (好幾個億花不完) 直接請廠商送NVDIA DGX Pod來就可以了 http://tinyurl.com/y3k63fo2 Easy Deployment of DGX Servers for Deep Learning 超Easy 預算不到億但超過千萬 DGX-2就在預算內 https://www.nvidia.com/zh-tw/data-center/dgx-2/ 但NVIDIA要求購買DGX-2的單位最好要先有DGX-1的經驗預算超過500萬就能買一台DGX-1 https://www.nvidia.com/zh-tw/data-center/dgx-1/ 預算200萬上下你可以考慮買DGX Station https://www.nvidia.com/zh-tw/data-center/dgx-station/ 以上的價格都是我夢到的詳細數字請打電話問業務如果對於NV原廠機的配置不夠滿意想要更換CPU RAM想加大點儲存空間想調整或是想把錢都砸在GPU 其他部分精簡 DELL HPE都有多GPU系列機器可客製化嫌國外一線廠牌太貴國內的華碩、麗台也都有GPU Server可以挑怕被廠商坑可以先上DELL或HPE的美國官網點點配置大概有個行情概念錢能解決的問題都不是問題最大的問題是沒有錢沒錢的實驗室想買GPU Server來做深度學習這時就要問情境了是否願意犧牲機器穩定性、資料正確性來換取效能?? 實驗室有多少人要用? 同時用還是排隊用? 有沒有專人管理維護伺服器? 如果真的要自己進這個坑就繼續吧經驗告訴我多人同時使用一台GPU server體驗很糟的不只GPU是資源 CPU核心、CPU快取、PCIe頻寬、記憶體頻寬、記憶體容量、storage IOPS 全部都是瓶頸 8個人同時用一台8 GPU的server 就算一個人限制一顆GPU 8個人全部卡死所以GPU server的使用情境是 - 訓練資料量太大了需要多張卡做多倍的加速 (舉例：只能接受8張卡train 3小時無法接受1張卡跑24小時) - PC、HEDT的記憶體不夠 - 需要超多核心的CPU算力來做計算前處理這時候又有人能管理伺服器(實驗室成員排隊不會吵架) 那可以買大台的server 一個人一個人輪流用其他人只能等推文裡有人買2xTITAN RTX主機45萬若用不到512GB RAM或24GB VRAM或超多核心的算力可以買5台9萬的PC 能用同時用的人更多算力也更高 (2 GPU vs 5 GPU) ==== 最後才是考慮組裝個人電腦來用那組裝深度學習的主機零件怎麼挑呢？我不知道版上有多少人真的在深度學習說不定我也沒有玩過上來唬爛一通下面的解釋都是心得也不一定對就當參考 CPU 有人說深度學習主機的CPU不重要我不認為不重要或者說不重要不代表可以忽視不然隨便拿個i3或Xeon Bronze亮機就好 CPU快的主機還能拿來做其他運算非深度學習無GPU加速的機器學習算法也可以跑 GPU運算是需要CPU送資料進去的若CPU需要做些前處理算力不夠會導致資料產出速度不足導致GPU閒置另一個就是PCIe頻寬多卡時有機會塞車 (推文有人問ML主機跟礦機差在哪礦機基本上不需要PCIe頻寬一小段資料送進GPU爆hash出來 ML主機是大量的資料通過GPU 還有神經網路的權重更新問題頻寬需求不同) CPU的算力若要在高頻少核與低頻多核間選一個我會選高頻少核泛用性比較高畢竟如果不是跑固定的商用軟體或開源軟體很難確定平行化的效果如何最後至少還有個單核硬上的選項另外就是我懷疑nvidia的驅動只有單核在跑要是單核不夠力 GPU會比較慢以上是推測沒有直接證據至於AMD CPU (先說明這是現在的狀況 2019/7/7後會不會改變我不知道) Zen架構與Skylake架構相比浮點運算AMD就是弱勢 (4個128bit 兩個加法兩個乘法 vs 2個256bit加乘皆可) AVX 256bit AMD直接是Intel半速更不用說要是程式用了Intel的編譯器或數學庫(MKL, MATLAB或numpy都會用到) 偵測到不是intel的CPU 直接執行相容性最高(最慢)的機器碼 AMD的CPU遇到奧步很難跑得比INTEL的快至於HEDT平台 9980XE與2990WX我手上都有版上隨便推人買2950X或2990WX是很不負責任的我的建議是除非你的程式在X399平台上測過真的比較快(或是一樣快但比較便宜) 不然買intel真的比較不會有性能問題商人不是笨蛋 18核的9980XE與32核的2990WX才會沒什麼價差實際測試這兩顆互有輸贏如果你的程式是 - 多核平行化得很好單核慢沒關係 - 有NUMA支援不會卡RAM頻寬或CPU之間 - 浮點不重要 AVX 512沒差且不會被intel軟體奧步那2990WX有機會贏但還是建議要測過再購買 (不到6萬就能體驗4路不對稱NUMA所帶來的各種奇葩效能問題超值) RAM 通道插滿越大越好做正事的機器不建議用超頻記憶體標準條很棒 2019年記憶體需求超過64GB 只能選HEDT 超過128GB 只能選工作站超過512GB 只能選Server 嚴格要求資料正確性請買ECC MB 主流平台挑選跟一般開菜單一樣 VRM散熱與設計挑一下要是VRM供電不足可能連維持全核Turbo都有問題其他沒什麼重點 HEDT平台要看一下PCIe通道設計針對ML需求會不會塞車每張卡至少要x8 塞在CPU端或GPU端都會有影響 CPU散熱 i7-8700的原廠散熱沒有辦法在燒機下維持全核Turbo 4.3GHz 真的垃圾比原廠散熱器好的都可以 GPU 重點來了針對深度學習第一要考慮的就是VRAM大小 VRAM決定了能放多複雜的模型下來算 (有人會說Unified Memory啊或是什麼NVLink合併記憶體的會自己寫底層用這兩個功能的人就不會上來問問題了 Tensorflow可以開Unified Memory拿主記憶體硬跑代價是效能剩10分之一 [PCIe x16頻寬約GDDR6 1/10] NVLink自動合併記憶體我還沒看到Tensorflow或Pytorch有支援至少我在V100上是開不出自動合併會的人麻煩教學一下手動將模型拆放在兩張又不會卡頻寬也是需要花時間調整的) 還有batch size能開多少(這個可以透過多卡增加) 如果只是玩票性質的深度學習 6GB VRAM應該都能試跑常見的模型如果是拿來做事的 11GB VRAM的是首選因此消費級能挑的卡有 11GB 1080ti 2080ti 12GB GTX TITAN X TITAN X TITAN Xp TITAN V 24GB TITAN RTX Quadro卡很貴也沒有特別快除非你想買Quadro RTX 8000有48GB VRAM 不然光看規格我找不到買Quadro RTX 6000而不買TITAN RTX的理由 (其實有 Quadro RTX 6000是鼓風扇多卡散熱比TITAN RTX好) Tesla卡是被動散熱沒有風扇都是跟著設計過的機架出貨就算搞到手裝在一般機殼也是直接燒掉如果要使用多卡一定要用渦輪扇版本的強制排氣不然連跑幾個小時直接熱死再來要考慮的就是算力如果會用半精度fp16訓練(AMP之類的) 有Tensor Core的TITAN RTX、2080ti、TITAN V有絕對優勢 (雖然2080ti的Tensor Core在fp16/fp32混和精度被老黃閹成半速但還是很快) 只用fp32的話請直接看wiki Single precision欄位 https://en.wikipedia.org/wiki/List_of_Nvidia_graphics_processing_units TITAN V與TITAN RTX比較 TITAN V是HBM 某些吃VRAM頻寬的模型計算速度上會快些 TITAN RTX的VRAM比較大且有NVLink NVLink的效果有幫助但沒有很顯著 Puget Systems上關於GPU跑深度學習的測試文都可以看看 https://www.pugetsystems.com/search.php?query=+Machine+Learning TITAN V與TITAN RTX個人會選RTX 慢一點等就好 (沒用Tensor core速度根本沒差) 放不進VRAM連算都不用算 PCHome定價還比較便宜 Storage 都2019了 SSD必備吧額外的硬碟、RAID或是NAS就看預算另外NVMe組RAID 0不會增加隨機讀取IOPS 不要為了這個浪費錢 Power 如果放機器的地方沒有220V 組4卡機器可能要考慮一下 1500W推4張TU102+CPU其實很拚 ==== 最後是菜單線上隨便點的別真的拿去組 80K 深度學習文書PC CPU (中央處理器)： Intel i9-9900K【8核/16緒】3.6GHz(↑5.0GHz)/16M/95W 15800 Cooler (散熱器)：利民 Silver Arrow T8 8根導管(6mm)/TY-143B*1/雙塔/高度15.8cm/TDP:320W 2400 MB (主機板)：技嘉 Z390 AORUS ELITE 翼力特(ATX/1H/Ｉ網/一體式檔板/註五年) 4890 RAM (記憶體)： KLEVV(科賦) 16GB DDR4-2666/CL16 4x1888 7552 VGA (顯示卡)：技嘉 RTX2080Ti TURBO 11G(1545MHz/27.2cm/註四年) 36890 SSD (固態硬碟)：威剛 XPG SX8200Pro 1TB/M.2 PCIe 2280/讀:3500M/寫:3000M/TLC【五年保】附散熱片 4380 HDD (硬碟)： Toshiba 6TB【企業級】128MB/7200轉/五年保(MG05ACA600E) 5390 PSU (電源供應器)：全漢聖武士 650W/銅牌/全日系/DC-DC/5年免費/CPU主線:18AWG 1990 CHASSIS (機殼)：全漢 CMT240B 炫鬥士黑顯卡長37.3/CPU高17.9/壓克力透側/上開孔/ATX 1090 ==== 300K 深度學習入門PC 處理器 CPU: Intel i9-9980XE【18核/36緒】3.0G(↑4.4GHz)/24.75M/165W/無內顯【代理盒裝】 61000 主機板 MB: 華碩 WS X299 SAGE/10G(CEB/8*D4/雙Ｉ網-10G/2*M.2/1*U.2/三年) 21900 記憶體 RAM: 美光 Micron Crucial 16G DDR4-2666 8x2099 16792 固態硬碟 M.2｜SSD: 三星Samsung 970 PRO NVMe 1TB/M.2 PCIe 讀:3500/寫:2700/MLC/五年保 13500 傳統內接硬碟HDD: Toshiba 10TB【企業級】256MB/7200轉/五年保(MG06ACA10TE) 9990 散熱器: 利民 Silver Arrow IB-E Extreme 8根導管(6mm)/雙塔/高度16cm/TDP:320W【VWX】 2890 顯示卡: 華碩 TURBO-RTX2080Ti-11G(1545MHz/26.9cm/註四年) 4x38990 155960 機殼: 海盜船 Carbide Air 540 黑顯卡長31/CPU高17/SSD*6(2共用)/E-ATX 4490 電源供應器: 全漢 CANNON 2000W 雙8/全模/全日系/1年保固/六項保護/支援18組PCI-E 6+2PIN 12900 ==== 300K那組可再往上調整一階成自組工作站 CPU可換Xeon W-2195 MB可換ASUS WS C422 SAGE/10G RAM加到512GB VGA換成2x Titan RTX ==== 再往上就不要自組或白牌server了啦驗證也是要錢的廠商的人力服務支援都是錢更高階的機器不是所有零件裝上去就會動的散熱、供電、各零件相容性都是眉角花了幾百萬經費買了不會動的機器一定被教授砍死這邊都還只有講到硬體要是管理伺服器的人軟體部分OS、CUDA driver等等設定無法自己來還是要有個廠商在後面支援才好啥都不懂買品牌機就對了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.16.145 ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1559148243.A.200.html

推 a3831038 : 趕快推，免得被人說看不懂 05/30 00:52

推 windrain0317: 推，尤其300k後直接call廠商是良心建議 05/30 00:53

推 rtwodtwo : NVMe要拉高隨機存取IOPS => 900P/905P 05/30 00:55

拉高IOPS的另一種說法是降低latency 唯一做法就是換Optane 8xSAMSUNG 970 PRO 1TB 贏不了900p 我測過了過一個RAID還會增加延遲 IOPS反而下降但容量隨機寫連續讀寫還是有幫助就看目的

推 hprince : 推 05/30 01:04

※ 編輯: fo40225 (140.112.16.145), 05/30/2019 01:08:08

推 xiemark : 純c的caffe train快多了。 05/30 01:10

推 WARgame723 : 簡單來說.買intel 05/30 01:12

推 onepunchgg : 同一樓wwwww 05/30 01:16

推 hizuki : 深度解析 05/30 01:20

推 m54ak : 這篇可以m起來 05/30 01:24

推 MrDisgrace : Intel MKL奧步這個問題真的很大XD 05/30 01:44

推 gaade : 不同的機器作不同的事，別再看跑分評論不同設計的系 05/30 01:44

→ gaade : 統囉～ 05/30 01:44

推 NX9999 : 推!!@@ 05/30 01:57

推 SahoYaho : 大佬來了看得好爽 05/30 02:02

推 Zinsei : 推用心 05/30 02:10

推 WFSGT : 推 05/30 02:12

推 piyopiyolee : a跑比i快就說真香，比較慢就喊奧步，跟政治人物一樣 05/30 02:22

推 tom282f3 : 太專業 05/30 02:26

推 ctweng13 : 請問，i9 9900k與2697 V3，那顆CPU比較適合跑M.L? 05/30 02:39

要看情境 9900k就是小台的機器 64G RAM + 1~2GPU 2697v3應該是雙路大台的機器爆幹大的RAM + 4~8GPU 大台的機器拆成小台給多人用會比買一堆小台的給多人用起來慘一堆小台的機器很難在需要大量算力時湊成一台大台的 (可以挑戰從eBay上買拆機100Gbps網卡組叢集成功了功力++) 所以取決於你的需求

推 stephen2232 : 某樓不然你來換個說法阿 05/30 02:53

推 is2586537 : 推經驗分享跟認真分析 05/30 03:06

推 Etern : 推 05/30 03:08

推 ping860622 : 這篇真的要推 05/30 03:09

推 BaWanYi : 簡介也能這麼精闢，推 05/30 03:15

推 william25520: 同一樓 05/30 03:21

推 BambooGrove : 強 05/30 03:23

推 MrDisgrace : 商用沒美國時間給你整個重寫開源授權不給包無解XD 05/30 03:24

推 h311013 : 錢 05/30 03:34

推 cory8249 : 推 05/30 03:39

推 Higana : 優文不推對不起自己 05/30 03:39

推 a007son : 中文真的難，都說程式碼有針對i皇最佳化了還要護航 05/30 03:43

推 firex10 : 推112大佬 05/30 03:44

推 jeff40108 : 免費經驗分享真佛 05/30 03:51

推 remia81 : 推 05/30 03:57

推 a2470abc : mkl真的很機掰 05/30 03:58

推 KuChanTung : 解釋一下，最近剛買的450K的Server，只有個人使用， 05/30 04:26

→ KuChanTung : 主要也是因為其他GPU Server多人同時上線掛機運算 05/30 04:26

→ KuChanTung : 模型，資源不夠使用，再弄Server，本文其他部分， 05/30 04:26

→ KuChanTung : 完全說明DL研究者心聲，推。 05/30 04:26

推 KuChanTung : 另外因為散熱因素，我個人不建議在單一4 GPU Server 05/30 04:38

→ KuChanTung : 配RTX *4，完全無法跑出應有效能。 05/30 04:38

→ bubunana : 推...我記得NV跟i 都有直接在112資院直接建DL lab 05/30 04:48

→ bubunana : 要什資源直接申請就好內部還會直接美國派一個 DL P 05/30 04:48

→ bubunana : HD 當窗口所以好奇怎麼還需要額外掏錢買設備？ 05/30 04:48

→ jeff40108 : 樓上484搞錯因果關係了？ 05/30 05:00

→ jeff40108 : 就是因為有花錢買設備才派人來支援 05/30 05:01

→ jeff40108 : 就算有合作案也不是合作了全院都免費用到爽 05/30 05:02

推 sma1033 : 如果有用到MKL確實「某些運算」會快一些，但是能否 05/30 05:03

→ sma1033 : 用MKL用到造成速度有顯著加速就是Case by case 05/30 05:04

推 sma1033 : 用AMD的CPU每顆核心比較弱一點，就是要把工作負載 05/30 05:11

→ sma1033 : 拆開分散，來最佳化多核心的優勢 05/30 05:12

→ bubunana : 不是喔是直接進學校建lab 算是產學合作喔另外樓 05/30 05:16

→ bubunana : 主講了Optane應用不然在PTT應該被噴了跟垃圾沒兩樣 05/30 05:16

推 BlackCoal : 趕快推，雖然我文組完全看不懂 05/30 05:19

→ bubunana : 當然不是全院用到爽我只是針對樓主經驗應該是合作 05/30 05:20

→ bubunana : 範圍內而且實驗室畢業PhD 有蠻大機會直接進Intel l 05/30 05:20

→ bubunana : ab 不過要稱幾年intern 05/30 05:20

推 sdriver : 現在不都直接租雲端嗎 05/30 05:54

推 simon78410 : 看吧用AMD當工作站根本自找麻煩 05/30 06:11

推 bunjie : 這篇可以M了 05/30 07:01

噓 peter0517 : 推 05/30 07:04

推 peter0517 : 靠邀按錯 05/30 07:08

推 hdotistyle : 推一樓 05/30 07:30

推 k073322524 : 推 05/30 07:57

推 deathagel16 : 非常感謝這位前輩!!後續會再與老闆溝通，這篇文也會 05/30 08:02

→ deathagel16 : 給老闆參考 05/30 08:02

推 comipa : 好文推 05/30 08:06

→ Angesi : 你對半精度的概念有誤 05/30 08:26

→ Angesi : 只是一昧的要求vram大完全不考慮精度的選擇 05/30 08:27

→ Angesi : 真的蠻慘的喔~ 05/30 08:28

半精度/混合精度的訓練當然是非常tricky 速度雖然快 vram用量有機會減半但不一定train得起來沒解決也只能用fp32跑單精度fp32的狀況下 V100 GV100 TITAN V TITAN RTX 2080ti 1080ti (其實沒有差很多) 雙精度fp64在深度學習比較少見跑模擬或工程CAD才會用到 (這時才買Quadro) VRAM大能放複雜的模型或是batch size更大更大的batch size比較能提升GPU利用率 (調高batch size後計算速度變快是因為GPU與VRAM頻寬使用率上升這兩種滿載後 batch size調更大也不會加速滿載下才是比晶片算力還有記憶體頻寬 HBMvsGDDR) 雖然batch size大不一定收斂得比較快(時間上) 但大VRAM至少能讓你有選擇的空間

推 amin0811 : 這篇文真的算是範本了...真心建議收進精華區... 05/30 08:44

→ amin0811 : 裡面的概念想法幾年後應該也適用(硬體舊了汰換而已) 05/30 08:45

推 jason4571 : 優文 05/30 08:53

推 silk10268 : 推 05/30 08:59

推 x941u4vu86 : 還是推RYZEN 2990WX，買INTEL的都盤子 05/30 09:04

推 john60111 : 字太多了，先推再說 05/30 09:04

推 tgenie : 好像有點專業，推個 05/30 09:13

推 YandereLove : 優質 05/30 09:17

※ 編輯: fo40225 (140.112.16.145), 05/30/2019 09:56:43

推 AnnaAJ : 不明覺厲 05/30 09:40

推 windrain0317: 真的要工作AMD要就直上EPYC 05/30 09:43

→ windrain0317: 2990WX很多奇葩狀況會讓人傻眼 05/30 09:44

推 vykhodila : 推分享非常實用 05/30 09:45

推 jason2325 : 優文推 05/30 09:47

推 JKGOOD : 待過公家單位真的覺得就算有能力還是全部找廠商就好 05/30 09:53

→ JKGOOD : ，出事有人擔下班不用被call 05/30 09:53

推 menshuei : 盼AMD能夠加速人工智慧運算功能的建立，不僅要算的 05/30 09:58

→ menshuei : 快，算的好，更重要的是能夠有智慧的算；未來的世 05/30 09:58

→ menshuei : 界是人工智慧的時代，AMD造CPU可要跟上趨勢才是。 05/30 09:58

推 xiemark : 改買Xilinx alveo FPGA卡做INT8 training 05/30 10:15

推 gaade : 不知道有使用epyc的機子的經驗分享嗎？ 05/30 10:30

→ friedpig : 不過說真的牙膏王自己花錢請RD寫的complier 人家沒 05/30 10:51

→ friedpig : 事幫忙弄別家的相容性幹嘛不跑相容性最高的作法到 05/30 10:52

→ friedpig : 時候編出來的東西再其他機器不能跑又是另一套說詞 05/30 10:52

推 AbeNana : 真優文 05/30 11:09

推 wobooyaw : 長姿勢文 05/30 11:10

推 GodBlessPP : 推 05/30 11:10

→ bubunana : i請了快1.5-1.8萬人 SW RD在搞這塊幾乎是fabless 全 05/30 11:13

→ bubunana : 公司員工總數這還只反算正職不算約聘既然是做資 05/30 11:13

→ bubunana : 科就不該覺得軟體是免費不幫對手最佳化就是XX 05/30 11:13

→ bubunana : 另外做軟體或驅動的在硬體設計公司已經夠可憐被消 05/30 11:19

→ bubunana : 費流動率高正如在MS Google做硬體的不用太過苛責 05/30 11:19

推 david54001 : 長知識 05/30 12:08

推 clap : 超專業！ 05/30 12:09

推 jasn4560 : M文不待處理的意思嗎? 為啥要M這篇文我以為是要= 05/30 12:15

推 perfects1988: 推 05/30 12:18

推 twistedvate : 一分錢一分貨 05/30 12:25

推 anderleth : 推，專業文 05/30 12:32

推 maplefoxs : 高端操作 05/30 12:41

推 arrenwu : MKL也不能說是奧步啦XD 這也是為啥MATLAB上面Intel 05/30 13:01

→ arrenwu : CPU會快一點。可是我覺的深度學習應用上，瓶頸不是 05/30 13:01

→ arrenwu : CPU算的東西，所以MKL的優勢是還好 05/30 13:02

推 MrDisgrace : 要看只是沒最佳化還是故意劣化XD 05/30 13:55

→ AmibaGelos : mkl就matlab/MMA app超爛的元兇啊 matlab怎麼處理 05/30 14:02

→ AmibaGelos : 不清楚聽說MMA打算拋棄mkl lock-in真的會破壞生態 05/30 14:02

推 Jmoe : 良心建議 05/30 14:20

→ badyy : 硬體公司都是用SW當marketing/綁使用者,對使用者算 05/30 14:46

→ badyy : 免費啊 SIMD讚XD 05/30 14:46

→ badyy : 反正錢是花在買硬體上不是嗎?XD 05/30 14:47

→ badyy : 不然急著讓大家有平價的AVX512是好玩嗎? 05/30 14:48

→ skycat2216 : 其實我之前在ebay還是有看到有鼓風扇的Tesla，不過 05/30 15:35

→ skycat2216 : 是老的型號了 05/30 15:35

推 LOUlSVUITTON: 完全看不懂但是推個 05/30 18:35

推 Ham10159 : 推專業大佬 05/30 18:45

推 user1120 : 推 05/30 19:08

推 goldie : 推 05/30 19:18

噓 nickball007 : 8700是文書機嗎???? 05/30 19:18

→ gaade : 差不多吧... 05/30 19:29

推 dogluckyno1 : 推 05/30 19:51

推 tofukingkion: 推 05/30 20:53

→ ashburr : AMD：我只設計CPU 沒錢優化請自己來 05/30 21:03

推 i1k1y : 乾貨讚 05/30 22:03

→ anedo : 8700十年之後也是文書機了.. 05/30 23:55

推 ticy : 推 05/31 09:44

推 zephyr105 : 推 05/31 10:18

推 nucleargod : 你說的是用 nv 寫好的軟體在跑ML吧 05/31 22:15

→ nucleargod : 真正自己在寫的人，根本不需要 nv 卡 05/31 22:15

→ nucleargod : 我之前就直接 A 卡寫 opencl 05/31 22:16

→ nucleargod : CPU 也絕對是同時全部吃滿 05/31 22:17

→ nucleargod : 那時候就會知道，單核效能完全無意義，看核心數就好 05/31 22:18

會用OpenCL全部自己來的大神一定相當了解自己的程式需要什麼硬體資源就不會上來問菜單了但對於不懂的人寫出來的code 87%是需要單核效能更不要說什麼花時間調整後 gcc + OpenBLAS + OpenCL @A+A 就能對抗 icc + MKL + CUDA @I+N 對於一般人來說還是太遙遠 ※ 編輯: fo40225 (140.112.16.145), 06/01/2019 00:58:38

推 GoGoJoe : 可以中斷服務的應用，可以不用考慮Server。 06/01 20:47

※ 編輯: fo40225 (140.112.16.145 臺灣), 05/08/2020 18:46:01