推 Semisphere:一切看演算法可供平行化的部份多不多,若真要研究請先 07/03 16:33
→ Semisphere:把既有的演算法搞懂才能知道GPU加速程度,另也可前往 07/03 16:34
→ Semisphere:c++版 /openmp,有很多資訊可供參考 07/03 16:35
推 callmei:CUDA不是這樣設計的 跟一般多核心平行化會有些不太一樣 07/03 17:56
→ callmei:如果照本宣科把CPU平行化的演算法套到GPU上 不一定會較快 07/03 17:58
→ callmei:簡單說就是很可能要重新設計演算法 很難這樣簡單地去比較 07/03 17:59
→ Semisphere:看到有人推文,我才發現打錯關鍵字 /cuda 07/03 18:33
推 callmei:補充一下 GPU程式寫得好真的會很快XDDDD 只有一個爽字!!! 07/03 19:15
推 kusork:n個CPU不可能跑出n倍速度 資料傳遞也是要時間的 07/03 19:48
→ blc:cpu好像有個共用記憶體的架構,不過不熟… 07/03 22:47
推 acyang:請問callmei或Semisphere大大,如果有mpi開發經驗 07/04 09:16
→ acyang:是不是比較容易入門CUDA? 07/04 09:17
推 meteorology:快4~6倍 07/04 19:57
推 callmei:不曉得耶~我覺得CUDA的grid/block/thread蠻像電腦叢集的 07/04 23:24
→ callmei:所以我想有用MPI開發過電腦叢集程式 應該是有幫助的 07/04 23:25
→ callmei:只是一個是計算時脈低 平行單元多 資料傳輸快 07/04 23:26
→ callmei:一個是計算時脈高 平行單元少 資料傳輸慢 07/04 23:26
→ callmei:所以開發程式時該顧慮的點會不太一樣 而且CPU快取也較大 07/04 23:27
→ callmei:而且我不是大大 我現在還在練習把小程式改成CUDA的階段 07/04 23:29
→ callmei:蠻希望有高手出來教學一下的 自己找資料摸索真的太累了.. 07/04 23:30
→ onezillion:亂入一問:記憶體部分若要用到超過20G怎麼辦 07/06 09:39
→ onezillion:使用外部ram嗎?還是只能用GDDR? 07/06 09:40
推 callmei:可能得做多次的數據交換和分批計算吧??或是用很多張顯卡?? 07/11 04:21
→ callmei:不過我不知道CUDA架構下 顯卡串聯 記憶體有沒有共享就是了 07/11 04:22