推 c52chungyuny: 你可以不要看好x86算了 沒有特殊指令集x86根本沒 07/16 00:16
→ c52chungyuny: 優勢 07/16 00:16
推 a1234567289 : 我這次同意樓上 如果把有的沒的指令集都拔了 x86就 07/16 00:19
→ a1234567289 : 真的只是垃圾 07/16 00:19
→ a1234567289 : 另外AVX在數值計算上其實也用很多 07/16 00:20
推 mmonkeyboyy : 真的同意一樓 XDXDXD 07/16 00:22
推 a58524andy : 恩幹完全不懂圖形架構 07/16 00:23
→ a58524andy : 慘 07/16 00:23
→ c52chungyuny: ARM指令集也是越改越肥 通用性越廣就會越肥 套在 07/16 00:27
→ c52chungyuny: windows上也是 套在x86上也是 07/16 00:27
推 twosheep0603: 所以蘋果準備要跳車啦XD 07/16 00:30
→ a58524andy : 話說Linus後續有提到他覺得arm的sve2還行 07/16 00:31
→ hn9480412 : 奇葩(ㄆㄚ) 07/16 00:36
推 c52chungyuny: AMD那種糞狂烙架構就是腫瘤只會增生 每顆腫瘤塞 07/16 00:43
→ c52chungyuny: 一堆特規電路最後總成本就會炸 intel爽多了 每個 07/16 00:43
→ c52chungyuny: 產品線都精心製作彷彿丹麥骨瓷 AMD還是繼續當腫 07/16 00:43
→ c52chungyuny: 瘤就好 07/16 00:43
推 mmonkeyboyy : 就是來亂的沒錯 XD 07/16 01:04
→ giancarlo82 : 然後C52繼續回去用一代threadripper 07/16 01:12
→ Clarkliu : 話說cell架構也未免太奇想天外了 這麼座的理由是? 07/16 01:33
→ hn9480412 : 八成是被IBM拐的吧 07/16 01:47
→ Kuge : 就出來跟x86競爭的啊 只看性能在當時的確很強 07/16 01:53
→ hn9480412 : 前幾天癡漢水球的文章有寫到當時水果會脫離PPC主要 07/16 01:54
→ hn9480412 : 是IBM根本沒有做過適用於筆電的PPC處理器 07/16 01:55
→ hn9480412 : 套回X86的話就是筆電板的P4和Pentium M的差別 07/16 01:56
→ hn9480412 : 所以IBM POWER在伺服器市場對上AMD和Intel在TDP上 07/16 01:57
→ hn9480412 : 也占不到便宜 07/16 01:57
推 a173652000 : 推專業 07/16 01:59
推 mmonkeyboyy : IBM是太貴啦...伺服器+來說 mainframe多貴啊 07/16 01:59
→ mmonkeyboyy : 一台大機貴1M 主要是處理的東西不太一樣 還有OS 07/16 02:00
→ mmonkeyboyy : 但近來開始擁抱LINUX一定是好事啊 07/16 02:00
→ mmonkeyboyy : cell IBM自己都砍了~~主要是在軟體優化太複雜 07/16 02:00
→ mmonkeyboyy : 我遇過設計CELL硬體 軟體 應用三種人 07/16 02:01
→ mmonkeyboyy : 這三種人講的話都合不起來了 還能怎麼期待 07/16 02:02
→ leung3740250: 問題是以28c xeon為例,avx512佔到的面積相當於兩 07/16 02:13
→ leung3740250: 個核心的面積,30c跑avx2和28c跑avx512哪個會贏是 07/16 02:13
→ leung3740250: 顯而易見的吧? 07/16 02:13
→ leung3740250: linus說avx512吃太多面積完全就是沒做過功課 07/16 02:19
推 mmonkeyboyy : avx512就設計角度來看 就是太浪費 讓設計成本上升 07/16 02:31
→ mmonkeyboyy : 使用率不見得高 其實我一直不懂為什麼要這些指令 07/16 02:32
推 arrenwu : AVX vs GPU 比的是不是就看你應用對某些程序的延遲 07/16 02:33
→ arrenwu : 啊? 07/16 02:33
→ mmonkeyboyy : 我講的是CPU設計成本 那個真的蠻難做的 囧> 07/16 02:34
→ mmonkeyboyy : 樓樓上板友 你指的是如果全速下 如果沒用到就浪費 07/16 02:35
→ mmonkeyboyy : 了 所以他的意思是不如用來做別的 07/16 02:35
推 mmonkeyboyy : frequency scaling也是問題 07/16 02:38
推 arrenwu : 我對AVX跟GPU的理解是,他們兩個幹的事情很像 07/16 02:38
→ arrenwu : 只是因為CPU較AVX做事情溝通速度快,而要叫GPU做事 07/16 02:39
→ arrenwu : 因為要通過比較長的路徑會有比較大的延遲 07/16 02:39
→ arrenwu : 而如果你整個應用充滿超多有點大有不太大的向量,那 07/16 02:39
→ arrenwu : 叫GPU做可能延遲會搞得整個運算很沒有效率 07/16 02:40
→ arrenwu : 不過我想得到的應用也只有轉檔 07/16 02:41
推 mmonkeyboyy : 其實不一定 跟單元數也有關 還有資料路徑 07/16 02:56
→ mmonkeyboyy : avx不一定有太多好處 理論上看起來是有 07/16 02:56
→ mmonkeyboyy : 實際上是你資料還是要去塞車 07/16 02:56
→ mmonkeyboyy : 拿個gem5去跑就看得到了(看起來很好就是了) 07/16 02:58
→ leung3740250: 我是覺得avx512遠比兩個核心的效益更多 07/16 03:02
推 mmonkeyboyy : 0.9mm2 真不小哦XD 07/16 03:03
→ leung3740250: 就算avx512會降頻,能效比依舊比avx2高 07/16 03:03
→ mmonkeyboyy : 我是沒有拿到這個數字 不過你分享了就太好了 07/16 03:03
→ mmonkeyboyy : 你要看在cpu做用中 有多少機會會用到啊 07/16 03:03
→ mmonkeyboyy : 這就是為什麼會跑 spec這種東西 07/16 03:05
→ leung3740250: 這是優化問題而不是avx512沒有用的問題,其次也要 07/16 03:07
→ leung3740250: 怪牙膏10nm瘋狂delay,10nm跑avx512至少不會搞出7 07/16 03:07
→ leung3740250: 980xe那種破千瓦的功耗 07/16 03:07
推 mmonkeyboyy : 不好優化 跟沒有用 或是用不到 有時是同義字 07/16 03:09
推 aegis43210 : 不過老黃也推出magnum io來解決延遲問題 07/16 03:09
→ leung3740250: 0.9*28才25mm,兩顆核心顯然換不到avx512理想中的 07/16 03:09
→ leung3740250: 效益 07/16 03:09
→ mmonkeyboyy : 這就是cell失敗的原因之一 07/16 03:09
→ leung3740250: 設計思路是沒有錯,用結果去推翻設計思路就是結果 07/16 03:10
→ leung3740250: 論而已 07/16 03:10
→ mmonkeyboyy : 他可以不要換核 可以換別的 分支預測的之類的 07/16 03:10
→ mmonkeyboyy : 而且我認為他們正在這麼做 XDXDXDXD 07/16 03:10
→ leung3740250: 像10nm delay對牙膏是意料之外的事情 07/16 03:11
→ mmonkeyboyy : 結果論另一個方向的思考就是在設計階段沒有做全盤考 07/16 03:11
→ mmonkeyboyy : 量 這點同cell上也被證明 規格理想化 工程師x! 07/16 03:11
→ leung3740250: 我主要是反駁linus用核心替換avx512的說法,用來幹 07/16 03:12
→ leung3740250: 其它事可以,但絕對不是加2顆核心那麼智障 07/16 03:12
推 aegis43210 : 之後還有直連儲存的GPUDirect storage 07/16 03:12
→ mmonkeyboyy : 他....有他的看法嘛 可能他的應用就是多兩個核好 07/16 03:12
→ mmonkeyboyy : 其實真沒有誰好誰壞 都要看場景應用@_@~ 07/16 03:13
→ mmonkeyboyy : 他賣的是general purpose CPU 說閒話的一定很多啊 07/16 03:13
→ leung3740250: 以28c為例,xeon多兩顆核心理論上會多7%的性能,然 07/16 03:16
→ leung3740250: 而實際應用上能多3%就偷笑了,我是覺得作為一個業 07/16 03:16
→ leung3740250: 內資深人士就算要噴也不是用這種連大學生水準都不 07/16 03:16
→ leung3740250: 如的方式去噴 07/16 03:16
推 mmonkeyboyy : 就.... 這也不是他本行嘛orz 07/16 03:18
推 GUNIT6968 : 推長知識 07/16 03:21
→ pcfox : 發在這邊林大師看不到 07/16 03:42
推 miname : 誒 linus有說要用核心去換嗎? 07/16 05:11
→ miname : 還是他改名叫David 了? 07/16 05:12
→ friedpig : 拿通用去想cp值就錯拉 這擺明就是給少數大戶用的as 07/16 05:15
→ friedpig : ic 人家就是付比你多錢 就是有需求 大家一起被逼著 07/16 05:15
→ friedpig : 攤成本 誰叫你小咖 07/16 05:15
推 arrenwu : 大戶現在真的需要用這種ASIC嗎? 07/16 05:19
→ friedpig : B大之前就有透漏過了 這東西使用單位來的需求 牙 07/16 05:21
→ friedpig : 膏王沒那麼無聊 07/16 05:21
推 arrenwu : 有文章聯結嗎? 07/16 05:21
→ friedpig : 後面還有更極端的ai類的半精度指令集勒 這些也是很 07/16 05:22
→ friedpig : 多人用不到但是dc大戶有需求的 原文fb就是個例子 07/16 05:22
推 arrenwu : AI的16bit float 運算現在不是交給顯卡做嗎? 07/16 05:24
→ arrenwu : 我感覺這爭論就是為什麼這類工作不交給GPU就好 07/16 05:25
→ friedpig : 把牙膏王認為是設計本文的公司出發點就錯了 人家fa 07/16 05:26
→ friedpig : b為主 設計很大需求配合客戶 所以高機率不是牙膏想 07/16 05:26
→ friedpig : 推新玩意 是客戶有需求 設計單位就乖乖算個成本有辦 07/16 05:26
→ friedpig : 法做就幫忙做一下 07/16 05:26
→ friedpig : 資料交換又不是不用時間 不是所有case都是那麼極端 07/16 05:30
→ friedpig : 的要那麼大量算啊 cpu在少loading的 等你資料傳給cp 07/16 05:30
→ friedpig : u都不知道處理好幾次了 07/16 05:30
→ friedpig : gpu* 07/16 05:30
→ friedpig : 講gpu很強的先去考慮HSA到底實務上能戰了沒吧 07/16 05:32
→ friedpig : 另外一個點是牙膏王家大業大 又沒說做了avx就沒錢 07/16 05:34
→ friedpig : 玩HSA FPGA 為什麼講的好像做了ASIC其他東西都沒做 07/16 05:34
→ friedpig : 一樣 人家有錢就是任性 我全都要好不 07/16 05:34
→ friedpig : 牙膏王去年dc的營收是20B 講極端點就算只有一個10% 07/16 05:58
→ friedpig : 左右的大戶需要這個功能 這也是影響2B的生意了 差 07/16 05:58
→ friedpig : 不多1/3個AMD全營收 那一點點小面積CP值夠不夠在考 07/16 05:58
→ friedpig : 慮看看吧 07/16 05:58
推 kqalea : 太浪費核心面積 07/16 06:57
推 kqalea : 隨便一張入門級顯卡就屌打AVX-512的效能 07/16 07:00
推 mmonkeyboyy : AVX 不負責任猜測 就跟玩wintel是一個套路啊 07/16 08:03
推 mmonkeyboyy : 對太浪費核心面積+太難優化 那個clock 哎額~ 07/16 08:06
推 menshuei : 拜偷厚,才三到五楨還要大費周章,簡直太不符合人 07/16 08:44
→ menshuei : 類懶惰的天性了。 07/16 08:44
推 NX9999 : C52怎麼那麼懂!!!!交了女朋友就變和運租車了,推推 07/16 08:53
推 mmonkeyboyy : 回二樓 AVX在數值上好用多了XD 但很多人都不知道 07/16 08:55
→ mmonkeyboyy : 要怎麼使用 程式開發商也很多在打混XD 07/16 08:56
推 superRKO : 謝大大科普 07/16 08:59
推 kira925 : 要說HSA APU這種內建GPU的好像沒看怎麼在用... 07/16 08:59
推 mmonkeyboyy : 這幾年看Intel HSA FPGA怎麼戰 市場愈戰愈小XD 07/16 09:00
→ mmonkeyboyy : 都是記憶體的問題 ~~ 07/16 09:00
→ mmonkeyboyy : 要是無法從LLC轉資料進來保證連續性 那HSA 07/16 09:01
→ mmonkeyboyy : 就是沒有搞頭 07/16 09:02
推 ATand : 所以我明白Apple為什麼處心積慮要自己製作CPU了... 07/16 09:10
推 mmonkeyboyy : 嗯啊 光被那個啟動坑死就不知道幾次了呢 07/16 09:23
→ mmonkeyboyy : 阿婆直接說不要AVX了啊 XDXD 07/16 09:23
→ friedpig : 阿婆量不大不小的 說不要牙膏還是要想想 07/16 09:27
→ friedpig : 叫阿婆自己吐錢開光罩 阿婆那種死要錢的絕對裝死 07/16 09:27
→ friedpig : 最後就乖乖分手自己想幹嘛就幹嘛 不過到底最後會怎 07/16 09:28
→ friedpig : 樣還有得看下去 07/16 09:28
→ cancelpc : 我是開發者也不想用,因為用了AVX也得再寫一份不用A 07/16 09:31
→ cancelpc : VX版本(不是每個USER電腦CPU都有,更況AVX版本一 07/16 09:31
→ cancelpc : 堆,說不定連用AVX還得各寫一版) 07/16 09:31
推 mmonkeyboyy : 對 07/16 09:32
→ friedpig : 所以這種髒活牙膏王也出了一堆人在做complier阿 07/16 09:35
→ friedpig : 而且真正的需求單位 那幾間巨獸鐵定是特別優化的 07/16 09:37
→ friedpig : 大家小咖就被強迫當分母 可憐娜 07/16 09:37
→ friedpig : 牙膏王看起來做了一堆CP值很低的事情 但是人家就是 07/16 09:41
→ friedpig : 錢多到不知道怎麼花 要做到90分很容易 但90->99就是 07/16 09:41
→ friedpig : 要做一堆這種CP值很低的事 但壟斷後帶來的效益又是 07/16 09:42
→ friedpig : 巨大 07/16 09:42
推 mmonkeyboyy : 就阿逗逼~~~~啊 07/16 09:42
→ mmonkeyboyy : 就是當年wintel模式 07/16 09:43
→ friedpig : 以小公司的心態去思考牙膏王在幹嘛就錯了 不像AMD壓 07/16 09:44
→ friedpig : 寶個HSA就差點把自己搞到去了 人家什麼都玩全部都 07/16 09:44
→ friedpig : 失敗還是有很多本錢玩下一輪 07/16 09:44
→ friedpig : 所以才是無敵中離王 反正什麼都可以玩 也什麼都可以 07/16 09:45
→ friedpig : 放棄 除了FAB以外 都是身外物 07/16 09:45
推 mmonkeyboyy : 說到中離王 隔壁的I才是大神呢 07/16 09:46
→ mmonkeyboyy : FAB都能丟的中離王 07/16 09:46
→ mmonkeyboyy : HSA本身沒什麼問題 問題在那堆MBA 07/16 09:47
→ friedpig : 我覺得主要是討論都討論得太理想了 這些技術在理想 07/16 09:48
→ friedpig : 上或極端Case上都是好的 但是現實世界哪有這麼好 07/16 09:48
→ friedpig : 一堆界在中間的東西 沒錢當然是不浪費資源作過度 07/16 09:49
→ friedpig : 產品 但人家有錢就是任性 07/16 09:49
推 mmonkeyboyy : 就是一個爭權奪利的歷史 這有點內幕的 07/16 09:50
→ mmonkeyboyy : 總之 消費者用了就 看hp dell轉換就知道了 07/16 09:51
→ friedpig : 說真的 要不是會被告 牙膏王把ARM買下來做低功耗解 07/16 09:53
→ friedpig : 絕方案都可以了 07/16 09:54
推 Nexus5X : 設計本來就要配合客戶啊,不是只有牙膏這樣子 07/16 10:11
→ Nexus5X : 啊不是說AVX512是微軟要求的嗎XDD 07/16 10:11
推 arrenwu : 我是覺得...Intel也沒有到錢多到不知道怎麼花啦 07/16 11:15
→ arrenwu : 至少我在Intel工作的朋友覺得內部很多人事不安的 07/16 11:15
推 arrenwu : 至於收購,你還得先問Softbank想不想賣哩 07/16 11:18
推 hcwang1126 : 把10nm想得太美好 漏電有很好處理了嗎? 07/16 11:39
推 ATand : 漏電這種事情用PPT就可以處理起來了,歹就卜 07/16 11:40
→ mayjan : 反正AMD就對了 INTEL阿斗化 07/16 12:14
→ leung3740250: 10+漏電率沒處理好怎麼上4.8g? 07/16 12:15
推 saito2190 : 馬的我居然看得懂,太神啦 07/16 12:42
推 a1234567289 : CPU是強Sequential GPU強在parallel ML就是parallel 07/16 12:58
→ a1234567289 : 到極致才在GPU上算的 這已經是極端狀況了 AVX的價值 07/16 12:58
→ a1234567289 : 就是補CPU的浮點能力 在parallel不那麼高的任務之下 07/16 12:58
→ a1234567289 : CPU肯定快得多 07/16 12:58
→ a1234567289 : 如果覺得GPU浮點那麼強 幹嘛不全都丟給GPU算 可以試 07/16 13:01
→ a1234567289 : 著建議Intel把FPU直接拔了 07/16 13:01
→ glittering : 水果用的是水果自己開的特規無誤 IO有差 07/16 13:40
→ glittering : 所以有一兩個大戶要開指令集也不會特別奇怪 07/16 13:41
→ leung3740250: 很多人都覺得parallel萬能啊,對他們來說堆核能夠 07/16 13:43
→ leung3740250: 解決一切問題 07/16 13:43
推 c52chungyuny: 阿不就可悲A粉才這樣想 叫他們全部去舔推土機超高 07/16 13:52
→ c52chungyuny: 時脈超多核他們又不要 07/16 13:52
→ c52chungyuny: A粉: core>>>>>>>AVX cpu不需要浮點 哈哈A粉哈 07/16 13:53
→ c52chungyuny: 哈 07/16 13:53
→ ksng1092 : 可是I的產品也不是都有放,那沒放的I是要賣誰(?) 07/16 14:15
→ arrenwu : 這邊AVX跟FPU要分開來討論啦 07/16 14:16
推 a1234567289 : 我是故意混在一起的 如果什麼浮點都能給GPU算 那FPU 07/16 14:37
→ a1234567289 : 存在的意義是什麼 07/16 14:37
→ a1234567289 : 其實主要的理由就像arrenwu大前面講的那樣 把資料送 07/16 14:45
→ a1234567289 : 去GPU再拿回來的overhead太高 除非問題的規模太大 07/16 14:45
→ a1234567289 : 才有把東西送去GPU的價值 07/16 14:45
→ a1234567289 : 且Sequential可以換parallel 反之不能 換句話說CPU 07/16 14:50
→ a1234567289 : 更加的靈活 此外除非本身就是設計來用作科學計算的 07/16 14:50
→ a1234567289 : 否則GPU主要的設計都是算單精度 而CPU AVX甚至能算 07/16 14:50
→ a1234567289 : 四倍精或八倍精 07/16 14:50
→ a1234567289 : 有四倍精的幫助下 CPU算出來的雙倍精可以有更少的ro 07/16 14:56
→ a1234567289 : und off error 07/16 14:56
推 aegis43210 : 還是看老黃怎麼出絕招讓i皇和蘇媽跟他合作 07/16 19:32
→ kuma660224 : AVX512不是FPU. 07/17 05:51
→ kuma660224 : 它其實沒有什麼4倍8倍精度這種事 07/17 05:52
→ kuma660224 : 他講的16wide x 32bit就是單精度 07/17 05:53
→ kuma660224 : 跟GPU一樣是拼大規模運算 07/17 05:53
→ kuma660224 : 所以larrabee當初是拿它來繪圖 07/17 05:54
→ kuma660224 : 不要把能浮點運算就當成FPU 07/17 05:55
→ kuma660224 : SIMD它. 07/17 05:56
→ kuma660224 : . 07/17 05:56
→ kuma660224 : 超寬SIMD單位都不是要拼精度的 07/17 05:56
→ kuma660224 : 現在AVX512甚至是刻意往超低精度走 07/17 05:57
→ kuma660224 : 跟GPU一樣,因為AI用途不需精度 07/17 05:57
→ kuma660224 : 講白了,這東西適合用途跟GPU超重疊 07/17 05:58
→ kuma660224 : 但你可以沒有AVX, 卻不能沒有GPU 07/17 05:58
→ kuma660224 : 所以商業發展在立足點就輸了 07/17 05:58