→ mmonkeyboyy: 其實用簡單數學算一下放下電路RAM大小就知道可行性了 01/03 04:28
推 Neistpoint: 分析得很透徹 01/03 10:22
→ erspicu: 這種拆磨晶片靠顯微鏡或是放大鏡看內部電路去描繪的事情 01/03 11:34
→ erspicu: 常理推斷只適合骨灰級的一些晶片 也不是我感興趣的事情 01/03 11:35
→ erspicu: 我目前在做的只是把這網站的專案從JS版移植到C# 01/03 11:35
→ erspicu: 內部邏輯閘.相連定義.接腳 他們都完全整理好了 01/03 11:36
→ erspicu: 可能是因為工作領域習慣性去預設的目的設想不同 01/03 11:37
→ erspicu: 即使我不只一次提及 只是一個在電腦上能夠更精確的紅白機 01/03 11:38
→ erspicu: 模擬器.. 還是有許多人會做發散式假設 01/03 11:39
→ erspicu: js版的速度可以算到大概10"Hz" 非常慢 01/03 11:44
→ erspicu: 有人用C++改寫優化後到達10000Hz 但還是太慢實機是3.5Mhz 01/03 11:46
→ erspicu: 看CODE內容初步來看主要是FOR迴圈處理一些陣列資料 01/03 11:47
→ erspicu: 以前有用過GPU處理影像 有前後次序性相依關係的 01/03 11:49
→ erspicu: 都會出問題 如果沒有這層問題 基本上就是把FOR迴圈改用 01/03 11:52
→ erspicu: parallel的方式去跑就有加速效果 但能不能拉到3.5Mhz 01/03 11:52
→ erspicu: 這我就不太清楚.. 01/03 11:54
推 mmonkeyboyy: 我想別人的推文你都沒看懂 你只是一直在講你的想法 01/03 11:55
→ mmonkeyboyy: 是很不錯的想法 加油呦~~~~好棒棒捏~ 01/03 11:55
→ mmonkeyboyy: 你也只是拿別人的c++來優化 看來你也不一定知道問題 01/03 11:56
→ mmonkeyboyy: 在那裡 另外gpu如果可以就這樣scale上去真的就是太 01/03 11:57
→ mmonkeyboyy: 美好了 至於到底gate-level simulation 在解什麼我 01/03 11:58
→ mmonkeyboyy: 猜你也不在意吧 01/03 11:59
→ erspicu: 可以避開前後相依次序性關係問題的話 多核就可以加速 01/03 11:59
→ mmonkeyboyy: ...........你以為只有你知道 ? 01/03 12:00
→ mmonkeyboyy: 你以為電路就不是要靠上一級輸入來做 01/03 12:01
→ erspicu: 然後這篇花很多篇幅在寫磨開晶片後的程式辨識 問題是 01/03 12:01
→ mmonkeyboyy: 你天真以為業界沒人知道沒人想過 沒人試過? 01/03 12:01
→ erspicu: 這個就不是我要做的事情 人家晶片內部定義檔都整個都幫你 01/03 12:01
→ Apache: 這篇沒有抓到原po的點,但是原po的推文也是... 01/03 12:01
→ erspicu: 輸出整理好好的了... 而且這種方式本來就只適合骨灰產品 01/03 12:02
→ mmonkeyboyy: 也不是我寫得啊 文主只是也就....他肯定是懂得人 01/03 12:02
→ mmonkeyboyy: 我第一個推文就告訴你了 你用數學算算就知道多快了 01/03 12:02
→ mmonkeyboyy: gate數可以推出data量&使用memory量 套上GPU硬體 01/03 12:04
→ mmonkeyboyy: 能力 還有你要計算的東西 就算是完美的平行運算 01/03 12:05
→ mmonkeyboyy: 你等於是一個原來的指令集 在一顆2GHz cpu上要跑2M 01/03 12:07
→ mmonkeyboyy: 你只有1000cycles可以解 01/03 12:07
→ mmonkeyboyy: 你說要做gate-level simulation 你可以自己看看有多 01/03 12:08
→ mmonkeyboyy: 少層要做 (每一層最少要1cycle) gate->gate就是一層 01/03 12:09
→ mmonkeyboyy: 其他的運算 搬資料的耗損什麼我就不說了 01/03 12:10
→ Apache: 他會說他只要變快就好 01/03 12:10
→ Apache: 我覺得前面那篇不錯 SIMD能加速的問題其實很少 01/03 12:11
→ erspicu: 我是真的不知道該怎麼算 你要不要分享一下你的算法 01/03 12:11
→ mmonkeyboyy: 我n年前就跟某廠在做這個事了 也沒看我賺到錢還在這 01/03 12:12
→ erspicu: 光靠單核C++ CODE可以到1萬 實機350萬 效率如果能改善到 01/03 12:12
→ mmonkeyboyy: 就知道沒用了啊XD 01/03 12:12
→ erspicu: 350倍也就算及格了... 當然也可能根本到不了 01/03 12:13
→ Apache: 還有而且code對架構非常敏感,還有開銷跟同步問題 01/03 12:13
→ mmonkeyboyy: 用ARM海快了點@_@~ 主要是你dataflow那個移出cache 01/03 12:14
→ erspicu: 記憶體從主機板那邊搬移到GPU的記憶體也是效能耗損拉 01/03 12:14
→ erspicu: 所以我當初處理影相 雖然是比多核電腦快但略快一點點而已 01/03 12:14
→ mmonkeyboyy: 那個對GPU太傷了@_@~ 成本太高 01/03 12:14
→ erspicu: 實際上得考慮到各種耗損 介面速度等等因素 我是真的 01/03 12:15
→ erspicu: 不知道該拿何種計算方式去做評估 01/03 12:15
→ mmonkeyboyy: GPU內部記憶就不用搬泥 ? 搬啊 搬死啊 跳著搬才是 01/03 12:15
→ mmonkeyboyy: 問題是吧 01/03 12:16
→ mmonkeyboyy: 都不用算這些 你就算有多少層logic gate要計算就好 01/03 12:16
→ erspicu: 不過骨灰級的東西 3.5Mhz 3.4千邏輯閘數 不是現代晶片 01/03 12:16
→ Apache: 這樣算明知故問嗎= = 01/03 12:16
→ Apache: 影像已經是GPU相對好解的問題了 其他通常更慢 01/03 12:17
→ mmonkeyboyy: 所以我沒有說沒有機會啊 這是上古產品數字這麼少 01/03 12:18
→ mmonkeyboyy: 硬塞GPU 採 greedy 方式邏輯用全放的可能可以哦@_@~ 01/03 12:20
推 Apache: 你很壞 01/03 12:20
→ mmonkeyboyy: 我換一個方式算給你看 這個種control dataflow型 01/03 12:21
→ erspicu: 是說mmonkeyboyy能分享"我n年前就跟某廠在做這個事了" 01/03 12:21
→ erspicu: 哪間公司做了啥相關GPU應用計畫?結果失敗 好奇想聽聽八卦 01/03 12:21
→ mmonkeyboyy: 的運算 要加速350倍 ..... 就算是單核比350核也難 01/03 12:23
→ mmonkeyboyy: 這沒什麼八卦 你文章多看就有了 01/03 12:23
→ mmonkeyboyy: 蠻多人在2010左右做過的 01/03 12:24
→ mmonkeyboyy: 我猜你要能拿顆普通GPU到1MHz就是一個大成就了 01/03 12:26
→ mmonkeyboyy: 我猜拿顆3990X可能還香點 尤其是 01/03 12:28
→ erspicu: 2010年老闆花了一筆錢養RD 結果全都失敗收場滿慘的 01/03 12:29
→ mmonkeyboyy: 我不知道你是從何得來上述結論的 反正不是我說的 01/03 12:30
→ erspicu: 因為如果我沒記錯當初相關宣傳未來願景等等說得滿多 01/03 12:30
推 mmonkeyboyy: 這我就不知道了 反正我現在沒做EDA&GPU 沒關我事 01/03 12:33
推 mmonkeyboyy: 不要說我沒啥建樹 你可以考慮看看用tensor core的方 01/03 12:52
→ mmonkeyboyy: 解解看logic array 說不定可以呢 不過這個做法我沒 01/03 12:53
→ mmonkeyboyy: 很仔細思考過 但我想這應該是少數還沒試過的方法 01/03 12:53
推 Neistpoint: 目前IC設計的流程是 C model(optional)-> RTL -> 01/03 13:15
→ Neistpoint: Gate level . 轉換之間都會作等效檢查。 如果覺得g 01/03 13:15
→ Neistpoint: atelevel 太慢,可以考慮 反向回RTL, 這樣估計可以 01/03 13:15
→ Neistpoint: 快2-3個數量級. 01/03 13:15
推 mmonkeyboyy: 他就不要啊XD 01/03 13:18
→ javatea: 對牛彈琴 浪費時間啊 01/03 13:30
→ erspicu: 一直都在說這顆骨灰級6502 哪來的c model RTL 不需要一 01/03 13:38
→ erspicu: 直擴大命題假設 01/03 13:38
→ freef1y3: 已經有C++source的話也許可以先試試加OpenMP pragma看 01/03 13:45
→ freef1y3: 能不能加速 01/03 13:45
→ erspicu: 專案移植完 會看看有沒有順序性相依關係,能處理掉的話再 01/03 13:49
→ erspicu: 看看怎麼做 01/03 13:49
→ erspicu: 能不能達到實機速度也無所謂 反正試試看 01/03 13:50
→ erspicu: 這顆已經是1975年的東西 3.4k邏輯閘數的老晶片了 01/03 13:52
推 mmonkeyboyy: openmp也有上限啦@_@~ 不過他原來說要放gpu啊 01/03 13:56
→ mmonkeyboyy: 不然放3990X 寫得好的快個幾十倍可能還是有的 01/03 13:57
推 GameGyu: (Synopsys VCS) In heterogeneous environments where 01/03 14:20
→ GameGyu: a mix of processors, GPUs and hybrid architectures a 01/03 14:20
→ GameGyu: re available, Cheetah technology can speed-up simulat 01/03 14:20
→ GameGyu: ion by up to 5X on RTL and up to 30X on gate-level de 01/03 14:20
→ GameGyu: signs. 01/03 14:20
→ expiate: 你所謂的更精確卻不用去考慮模型精確反而是加速部分? 01/03 15:36
→ expiate: 所以你到底是要做加速還是要更精確的模擬啊? 01/03 15:37
→ expiate: 用GPU要怎麼達到你所謂的更精確?我好像更不理解了 01/03 15:38
→ expiate: 拿如果是加速,最早的FPGA不就是最好的解嗎? 01/03 15:42
→ expiate: gate cout才3000多,寫Verilog也很快啊 01/03 15:42
→ expiate: 還是你就是要加速人家寫好的code而已? 01/03 15:50
推 Apache: 他想在電腦上讓一群情懷黨模擬晶片打紅白機吧 01/03 16:14
→ expiate: 所以問題應該就是該怎麼寫 cuda kernel來跑MOS 6502的循 01/03 16:26
→ expiate: 序電路模擬,使其加速350倍對吧? 01/03 16:26
→ erspicu: 差不多是這意思而已 01/03 17:11
推 SkyFluid: @GameGyu. 不管是S家的cheetah或C家的rocketsim, 用GPU 01/03 18:47
→ SkyFluid: 加速都只能跑特定設計, 無法大規模採用, 原因和我先前推 01/03 18:48
→ SkyFluid: 文的內容有關. 當然兩家都有想些新點子, 不過很難. 01/03 18:48
→ mmonkeyboyy: ex大 你得到他了 xd 01/04 01:33
推 GameGyu: GPU本來就很難做他原本功能以外的事啊 01/05 18:10
推 mmonkeyboyy: 讓我想起當年被唬弄去用早期的gpgpu....(眼神死) 01/07 08:47