推 LiloHuang: numba 試了還是不行? 04/13 22:38
→ LiloHuang: 如果能跑多個 thread, 就用用 tbb::parallel_for 看看 04/13 22:41
→ LiloHuang: 但可能得特別避開一下 false sharing 造成的性能損失 04/13 22:43
→ hsnuyi: 首先 把A做出來後下一步是啥? 有一定要建立A嗎? 直接讀取B 04/13 23:52
→ hsnuyi: 不行嗎? 04/13 23:52
→ hsnuyi: 再者 你的隨機是怎樣的隨機? 04/13 23:54
→ hsnuyi: 最後 B有可能超過10億個元素 你有試過了嗎? 04/13 23:57
→ SocketAM2: 我的直覺是memcpy再random swap 04/14 00:15
→ SocketAM2: 如果你的隨機不需AB一一對應那應該可以更簡單一點 04/14 00:21
→ loveme00835: 你知道這樣一個陣列有多大嗎?xD 04/14 10:39
推 qscgy4: 我覺得你要先擔心你的記憶體夠不夠? 04/14 11:30
推 pziyout: 假設每一維度有 3000 個,三維共有 27x10^9 個整數,兩個 04/14 15:26
→ pziyout: 陣列的整數共需 208x10^9 位元組,你的記憶體夠大嗎? 04/14 15:32
→ doasgloria: 不好意思沒寫清楚 實際上大概是 3500*3500*3 例子有誤 04/14 16:24
→ doasgloria: 有用NUMBA做 PYTHON試過最快的是NUMBA 但還希望加快 04/14 16:25
推 LiloHuang: 聽聞先前提的 numba 效率很快備感欣慰, 再試試 tbb 吧 04/14 16:57
→ LiloHuang: Intel VTune 有免費 license 也可以拿來 profiling 04/14 17:01
推 plsmaop: 如果是連續的話就 memcpy 啊 04/15 19:33
→ plsmaop: 啊沒看到是隨機分佈,抱歉 04/15 19:33
推 lc85301: 怎麼聽起來有點 sparse matrix 的感覺? 04/16 13:27
→ MOONRAKER: 就講了要塞滿怎麼可能sparse 04/18 16:04