→ meicon5566: 結果又是老黃的鍋 10/13 09:44
推 sigma9988: 坐等50卡 10/13 09:51
推 ISAF: 風向又變了 大人 10/13 09:53
推 ikarifaye: 什麼鍋 這是刀法 10/13 09:53
推 joe199277: 老黃的刀法...真的好強.... 10/13 09:55
推 Riya520: 皮衣刀客正盯著你 10/13 09:56
推 dylantu: 老黃沒有缺點 消費者才有 10/13 10:11
推 LastAttack: 神前刀工,規格冗餘是為了4090ti留後路,架構冗餘是 10/13 10:14
→ LastAttack: 為了50系列留後路 10/13 10:14
推 GermanGerm: 有人可以幫硬體麻瓜解釋一下FE是什麼以及為什麼造成瓶 10/13 10:17
→ GermanGerm: 頸嗎QAQ 10/13 10:17
→ tactics2100: 應該改成 主機卡插顯示板了 貴成這樣不操個十年說不 10/13 10:30
→ tactics2100: 過去 10/13 10:30
→ oopFoo: fe是前端。現代的gpu雖然vertex/pixel shader是共用的,但 10/13 10:31
→ oopFoo: 前面還有一個專門處理三角形的前端,這個triangles/s就是 10/13 10:32
→ tactics2100: 既然強成這樣 那就不要焊死 做成像cpu一樣可以換晶片 10/13 10:32
→ oopFoo: 處理能力。看不見的三角形就在這拋棄,點(vertex)也在這算 10/13 10:34
→ tactics2100: 就算效能會降一些 應該還是卡cpu瓶頸 10/13 10:34
→ oopFoo: 出。Ada這一代看起來fe太弱,跟不上shader的處理能力。 10/13 10:34
→ friedpig: Ada本來傳言就是 ampere 台GG版 靠GG製程規模拉大很多 10/13 10:36
→ oopFoo: Mesh Shader可以一次處理一堆三角形,可以降低fe的壓力, 10/13 10:36
→ friedpig: 傳統性能部分看起來改變不大 暴力+大而已 其他進步都在 10/13 10:37
→ oopFoo: 但現在用Mesh Shader的遊戲還很少。 10/13 10:37
推 MoneyBlue: 看來是遊戲程式設計跟不上老黃 10/13 10:51
噓 a000000000: 幹尼老黃 10/13 10:55
推 aegis43210: 主要的改善在即時光追,GPC的主要變動是L2變大 10/13 10:58
→ friedpig: 看下一代狀況吧 下一代還有MCM 整體應該會改更大 10/13 10:59
→ friedpig: 不過這代用GG已經不錯了 可以戰蠻久又不熱 10/13 10:59
推 aegis43210: 所以效能爆增幾乎都是GG的貢獻 10/13 11:02
→ hong414: 遊戲廠的問題 不關我們老黃的事 配合nv是他們的責任 10/13 11:02
推 nmkl: 看來等蘇媽的了 10/13 11:04
噓 as6633208: 沒邏輯,各大測試結果很明顯就是cpu瓶頸的特徵。按你說 10/13 11:12
→ as6633208: 數據會「塞」在gpu前端,不就代表gpu根本還沒完成圖像 10/13 11:12
→ as6633208: 運算就請求下一個運算數據?這樣的話是不是只要跑個一 10/13 11:12
→ as6633208: 兩小時,前端就會卡一卡車的數據,然後就開始變慢了? 10/13 11:12
→ as6633208: 你確定?前端問題應該是gpu瓶頸吧?你當那些測試的連gp 10/13 11:12
→ as6633208: u瓶頸跟cpu瓶頸都分不出來嗎? 10/13 11:12
→ as6633208: 找個中國論壇不知到什麼咖的鄉民的廢文,就想推翻cpu瓶 10/13 11:19
→ as6633208: 頸測試結果,我也是笑,資料嚴謹度比維基百科還廢 10/13 11:20
→ oopFoo: 我開始寫3d程式是比老黃的tnt還早。從triangle setup開始 10/13 11:42
→ oopFoo: T&L,geometry/hull stages,compute, mesh shader,幾乎 10/13 11:43
→ oopFoo: 通通都經歷過。從cpu做culling,變成coarse culling,現在 10/13 11:45
→ oopFoo: 再變成mesh shader來culling。Mesh Shader 其實跟ps2的vpu 10/13 11:46
→ oopFoo: 與ps3的spu很像。硬體,軟體的變化,算是都跟上了。你要說 10/13 11:46
→ oopFoo: 我比那些只會測試的人不懂? 10/13 11:47
推 keyman2: 看不懂但是好厲害的樣子 10/13 11:47
→ oopFoo: ada的triangles/s的rate都出來了,瓶頸在那已經很清楚了 10/13 11:50
推 jimmyyang207: 那懂哥可以幫我們科普一下為何有些測試看起來跟CPU 10/13 11:52
→ jimmyyang207: 的性能有直接關係呢?感恩 10/13 11:53
推 ddrbox: 若是DL/ML用途,是不是FE的壓力就沒這麼大? 10/13 11:53
推 boren: 我也不明白,所以是只要畫面的三角形太多GPU就跑不滿? 10/13 11:56
→ a85139138: 原來有行家啊 10/13 12:01
→ a85139138: 也想請教一下前端的triangles/s 10/13 12:01
→ a85139138: 造成的瓶頸,CPU是怎麼cover的 10/13 12:01
推 a45351: 所以是cpu在強也沒用嗎 10/13 12:05
→ oopFoo: dl/ml用不到這個fe。對,太多三角形就shaders在等。 10/13 12:06
→ oopFoo: 現在的triangles很多都是gpu自己在產生的,cpu只是下指令 10/13 12:07
推 aimlin: 硬體不是nv的問題 是消費者的問題 10/13 12:08
→ oopFoo: 而已,很多傳統cpu在處理,能轉到gpu處理的都轉過去。cpu 10/13 12:08
→ oopFoo: 在這能幫助的很有限,基本上現在3d繪圖程式的優化都是如何 10/13 12:10
→ oopFoo: 讓gpu能全速前進,cpu盡量不要去打擾。 10/13 12:10
推 Nonegrame: 可以開始等5090了 10/13 12:10
推 twinkleAshed: Ada是不是架構沒有跟上整個硬體規模才會卡住? 10/13 12:13
→ twinkleAshed: 如果簡而言之的話? 10/13 12:13
→ ileva3324: 等50+1 10/13 12:14
推 LiNcUtT: 故意留一手啦,不然50系要出啥XD 10/13 12:19
→ LiNcUtT: 反正牛肉端一半就打死競品了,沒必要一次全上完吧 10/13 12:20
推 landy0910: 看不懂(ry 10/13 12:22
推 Supasizeit: 不然你要買AMD 10/13 12:23
推 ddrbox: 了解,換言之,4090的目標客群是專業市場,遊戲只是附加 10/13 12:23
→ ddrbox: 的 10/13 12:23
推 Bencrie: 理想狀況就是送很少的資料能畫很複雜的圖 10/13 12:27
推 BraviaX95j: 我就問front End是什麼? 10/13 12:28
推 huhu12301231: 既然你懂這麼多幹嘛要貼對岸文 寫一篇提升一下板上 10/13 12:32
→ huhu12301231: 水準呀 10/13 12:32
推 vig077: 昨天還在吹== 10/13 12:38
推 smallreader: 推專業解釋 幹你老黃 10/13 12:38
→ commandoEX: 或許也可以說是4090的目標已經不是fhd這些解析度不是 10/13 12:40
→ commandoEX: 嗎? 10/13 12:40
→ intela03252: 大概就是要你積極啟用dlss那些東西吧 10/13 12:41
→ intela03252: 3080ti dlss開起來也不太容易感覺出畫質減損了 10/13 12:41
→ intela03252: 2077不開dlss真的很難衝高幀數 10/13 12:42
推 poi96300: 13代解禁後 效能提升 GPU使用率提高時 我看你怎麼解釋 10/13 12:53
推 ronald279: 看不懂QQ 10/13 13:02
→ oopFoo: 其實就是取捨,AI/RT比較重要,Mesh/Task Shader普及後, 10/13 13:20
→ oopFoo: FE的瓶頸也就解除了。某方面也是戰未來。 10/13 13:21
推 TaiwanBeijin: 原po或許是架構上專家 但卻不是商業成本的專家 講 10/13 13:26
→ TaiwanBeijin: 的東西經常只看架構而忽略製造成本 10/13 13:26
推 leviva: 如果13900K / 7950X / 7800X3D 1080p / 2k 都拉不開跟309 10/13 13:31
→ leviva: 0 Ti的差距,證明cpu瓶頸完全是偽概念 ( 而且買4090的, 10/13 13:31
→ leviva: 99.99% 開4K畫質,完全不受影響) 10/13 13:31
推 KoiKaze: 優文 10/13 13:56
推 sx4152: 合理阿 怎麼可能現在這麼強的cpu會是瓶頸 10/13 13:58
推 google60411: 太難懂了 拔草測風向 10/13 13:59
推 ctes940008: 不明覺厲 10/13 14:07
推 sdbb: 10/13 14:08
→ LiNcUtT: 13代解禁後就知道了,剩一個禮拜 10/13 14:23
推 NodeWay: 看13900k有沒有提升就知道了 10/13 14:40
→ NodeWay: 終於等到13900+4090了 10/13 14:41
推 rickie1141: 拔草測風向 10/13 14:53
→ bbest: levi大講到重點,等13代解禁就知道這篇是神預測還是喇叭文了 10/13 15:26
推 mrme945: 已經有人拿7950X測過了,一樣瓶頸呀 10/13 15:30
→ gbcg9725: 等等黨又可以等50了 10/13 16:10
→ ddfg: 因為現在cpu都在劑牙膏 10/13 16:12
推 kuninaka: 這篇的解釋合理啊,FE無能讓後端的shader在等 10/13 16:12
推 RaiGend0519: 大神出沒 10/13 16:13
→ kuninaka: 以前CPU負責送三角形 現在是GPU自己送 10/13 16:13
→ ddfg: 講得好像13代很神一樣,製程沒變化還不是12代再捏上去 10/13 16:14
→ kuninaka: 遊戲設計跟不上老黃XDD 10/13 16:15
→ minipopy0314: 我都在等100系了 老黃你快改阿 10/13 16:16
→ www123442: CPU佔用才20~30%講CPU瓶頸 不然是要做到單核10GHz嗎? 10/13 16:49
→ tactics2100: 那是因為很多遊戲不支援全核運作(常見的就1~4核) 10/13 16:53
→ tactics2100: 遊戲會卡但是遊戲以外的軟體不卡 10/13 16:54
→ ltytw: 不可質疑你的老黃 你NV價值不足? 難道你要買AMD? 10/13 17:35
推 lee988325: cpu有可能是單核瓶頸 可是評測的沒秀 只能猜測 10/13 17:54
推 wantsu: 你可以買i皇的顯卡,弱到CPU絕不可能是瓶頸 10/13 17:55
→ fywei: 敢嘴老黃 你 ... 10/13 17:56
→ a27417332: 有點好奇為什麼每週期的三角形處理率變低 10/13 18:02
→ a27417332: 可以推到瓶頸是在前端的結論?有其他數據證明嗎? 10/13 18:03
推 CORYCHAN: O大好資深 10/13 19:12
→ a85139138: 你還是沒有解答為何5800X和X3D 10/13 19:23
→ a85139138: 會有差距,就是因為看到這個差距 10/13 19:23
→ a85139138: 加上FHD提升非常有限,我們才覺得 10/13 19:23
→ a85139138: 可能跟CPU有關,如果真的是FE原因 10/13 19:23
→ a85139138: 那有辦法解釋這個結果嗎 10/13 19:23
推 ipspro: 等13900k解禁不就知道是不是瓶頸了 10/13 21:16
推 tint: 發表會公佈的GPC結構圖 就可以看出SM結構沒什麼改變 10/13 21:37
→ tint: 這次ADA的結構沒有大改 主要是頻率拉高、加大L2、增加SM規模 10/13 21:39
→ tint: 這篇推算出前端的效率 看起來合理 前端效率沒跟上規模的增加 10/13 21:40
→ tint: 另外 N卡對於CPU效能較依存的現象 這是從Kepler就開始的 10/13 21:45
→ tint: 因為從Kepler架構開始 NV將Scheduling過程一部分轉移給CPU 10/13 21:48
→ tint: 來處理 所以Fermi之後的架構 NV的GPU對CPU的依賴會相對高些 10/13 21:49
→ tint: 但NV這樣做的好處是可以大幅降低CUDA執行緒上的延遲 10/13 21:50
→ tint: 架構簡化亦能進一步提昇GPU的能耗比 10/13 21:51
→ savagy: 終於等到t大開釋,雖然還是看不懂 10/13 21:56
推 tint: 當年GTX600系列發售後 就有一些關於新GPU對CPU依賴性的測試 10/13 22:14
→ tint: Kepler架構後Scheduling過程的一部分由驅動交由CPU處理 10/13 22:18
→ tint: 所以原標題依賴CPU和本篇前端處理效率跟不上 覺得都是合理的 10/13 22:20
→ tint: GPU的發展方向 每隔幾年都會有一些變革 現在也許又到變革期 10/13 22:25
推 aegis43210: 5800x3d表現比較好是因為L3大,指令命中率更高,使GPU 10/13 22:26
→ aegis43210: 前端壓力變小 10/13 22:26
→ tint: 早年3D加速晶片->硬體T&L進入GPU時期->統一著色器架構時期 10/13 22:30
→ tint: 繪圖晶片從早年狂堆多邊形生成效能轉為重點擺在著色器效能 10/13 22:31
→ tint: 到現在強化單/半精度效能 強化AI效能和加入光追功能 10/13 22:33
→ oopFoo: 那個解析文章,亂扯一通,完全不懂drawcall的瓶頸是什麼。 10/13 22:46
→ oopFoo: vulkan/dx12很複雜,效能沒有提昇很多,因為每個遊戲都需 10/13 22:48
→ oopFoo: 要一堆PSO(Pipeline State Object)。每個pso都需要編譯, 10/13 22:49
→ oopFoo: 編譯沒辦法即時,micro stuttering比以前更厲害,Steam為 10/13 22:50
→ oopFoo: 了解決這個問題,cache pso起來,所以steam cache吃一堆。 10/13 22:51
推 kuninaka: 上面PO電蝦那篇文章被中國人吐槽,亂扯一通XDD 10/13 22:52
→ kuninaka: "這篇文章屬於牛頭不對馬嘴的典型例子,作者甚至不知道 10/13 22:52
→ kuninaka: 自己在說什麼,居然把任務調度和sm內的指令調度混為一談 10/13 22:52
→ kuninaka: 。" 10/13 22:52
→ oopFoo: 硬體廠商故意混淆,也是造成大家誤解的一大原因。 10/13 22:55
→ kuninaka: 低解析度4090跟3090差不多 10/13 22:55
→ kuninaka: 啊就卡在前面,後面爆幹強也沒用 10/13 22:56
→ kuninaka: 高負載才有用武之地 10/13 22:56
→ kuninaka: 其實也是好處? 10/13 22:56
→ kuninaka: 低負載買這麼強的卡炫富其實沒必要 10/13 22:56
→ tint: Fermi架構中Scheduling過程是有一部份移交給CPU處理的 10/14 01:12
→ tint: 當年的NV技術文件也有提到 所以那篇解析文的立論是對的 10/14 01:14
→ tint: 只是後面它提的DX12這可能就他自己的觀點 10/14 01:14
→ tint: 那個中國人吐槽可能也沒去看過NV當年Kepler的技術文件 10/14 01:22
→ tint: 上面第三行沒打完整 應是Fermi架構後的Kepler架構 10/14 01:23
→ tint: SM中的平行處理調度當然還是硬體層 外移的是Pre-Scheduling 10/14 01:33
→ oopFoo: kepler只是把job board移出來而已。gpu其實很早就有cpu在 10/14 06:19
→ oopFoo: 裡面,Nvidia早在2016年就換RISC-V,比其他人都早。但Job 10/14 06:21
→ oopFoo: Board跟Scoring這些東東本來交給主機的CPU是比較適合的。 10/14 06:22
→ oopFoo: CPU管大的,gpu管sm的thread,各有適合的。但這影響的不是 10/14 06:28
→ oopFoo: 效率,是成本。 10/14 06:28
推 kaltu: 所以是GPU上內建的CPU瓶頸了,不是主板上那顆 10/14 07:00
→ oopFoo: 瓶頸的是geometry engine,也不是內建的cpu。那個就是專門 10/14 07:13
→ oopFoo: 處理三角形該怎麼對應到frame buffer上。 10/14 07:16
→ oopFoo: 以前是歸類於前端(FE),但現在中段也會用的到。 10/14 07:21
推 ltytw: 推t大 10/14 07:32
推 CharleneTsai: 結論 等50看看 10/14 10:57
推 a85139138: 感謝o大t 大解釋,雖然沒看很懂 10/14 11:42
→ a85139138: 先存起來再說 10/14 11:42
推 boren: 我還好奇的是,為什麼4K能比1080P使用率更高?1080P的三角 10/14 12:54
→ boren: 型比較多?應該不是吧? 10/14 12:54
推 tint: 衡量GPU效能一項指標是填充率 一般主要會指像素和紋理填充率 10/14 13:50
→ tint: 當解析度愈高 GPU要渲染的像素也愈多 每秒能繪製格數就下降 10/14 13:52
→ tint: 所以boren是指哪方面的使用率? 10/14 13:53
推 boren: 就是工作管理員能看到的GPU使用率,但你這麼一說我懂了,解 10/14 14:07
→ boren: 析度高的時候GPU就加重別的工作了,這時front end就不需要 10/14 14:10
→ boren: 拼命畫三角形了 10/14 14:10
推 LastAttack: CPU瓶頸論者幹嘛一直喊13900k==也就多兩簇小核、時脈 10/14 16:11
→ LastAttack: 拉一成 10/14 16:11
→ dxzy: AMD新傳言之一好像就是這點有改善 這算不算打臉那個嗆原PO的 11/09 16:23