[問題] numpy broadcasting加速

作者goldflower (金色小黃花)

看板Python

標題[問題] numpy broadcasting加速

時間Thu Apr 12 23:59:33 2018

首先我有兩個2D矩陣 A: m x 128 B: n x 128 m, n大約10000左右我其中有一部分運算會使用到 np.subtract(A[i, :], B) 此產生出n x 128的矩陣而這個運算A的每個row都要做, 也就是做m次最直觀就是使用for迴圈跑m次但是因為太慢了所以想起來有個broadcasting可用直接np.subtract(A, B[:, None])就好, 產生個3D tensor 但問題在於這個居然比for迴圈還要緩慢而且是顯著慢很多不知道這種運算有沒有更快速的解法本來猜可以用vectorize 但是查doc發現"The implementation is essentially a for loop"這句話所以可能也沒用? 我姑且試寫了一下目前是error 還沒搞熟這個XD 不知道有沒有人知道怎麼樣讓這個過程變快大絕應該就是直接開multi-process吧希望有更好的選擇@@ 感謝收看 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.224.55.11 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1523548776.A.986.html

推 brahmsliu: np.apply_along_axis? 04/13 08:17

推 niki25672729: 我之前使用vectorize感覺起來是平行的耶把值印出 04/13 10:59

→ niki25672729: 來並不會照原本array的順序原來是for loop嗎 04/13 10:59

完整原文是這樣： The vectorize function is provided primarily for convenience, not for performance. The implementation is essentially a for loop.

→ niki25672729: 樓上那個應該是for loop 我試驗的結果跟vectorize 04/13 11:00

→ niki25672729: 效率差很多 04/13 11:00

那可能就視問題而定吧我查stackoverflow上也有vectorize速度沒改善的討論

→ ThxThx: 我記得subtraction的ufunc已經是有optimized過了！？ 04/13 12:55

→ ThxThx: 可以用batch的方式丟進GPU來算 04/13 12:57

→ ThxThx: 使用mp會有多次data copy的overhead我覺得不划算 04/13 13:04

了解這種overhead加上去可能也佔不到便宜我看有篇討論是說在大矩陣的運算上中間運算的部分會重複去蓋掉cache中的值所以反而會比較慢然後我的for loop是用掉一次subtract後這輪的減數就不會再用到了所以就沒這個問題所以我猜是他雖然有做優化但是因為彼此蓋掉cache的關係反而會降低速度只是我猜啦... 我沒測試小圖會不會就可以比for loop快就是了 ※ 編輯: goldflower (140.113.215.35), 04/13/2018 17:29:07