Re: [情報] 傳NV打算推出GD6X版本的3060

作者tint (璇月)

看板PC_Shopping

標題Re: [情報] 傳NV打算推出GD6X版本的3060

時間Wed Mar 8 11:51:09 2023

※ 引述《hn9480412 (ilinker)》之銘言： : https://tinyurl.com/bp8zpdj8 : 現在還是乳摸而已，看看就好。不過爆料者是T4C Fantasy(TechPower UP的GPU資料庫編 : 輯者) : 爆料出來的資料是核心為GA104。VRAM為12GB，頻寬和參數都沒說 : 不過價格多少才是重點吧? 如果RTX3060 12GB GDDR6X版真的推出上市除了VRAM等效頻寬提昇之外 (如果使用19Gbps的GDDR6X，等效頻寬為456GB/s) 我覺得這張卡的一個優點可能在專業運算用途上 Ampere架構GPU家族中 GA104以上晶片的IMC才支援GDDR6X 所以RTX3060 12GB GDDR6X版必需使用GA104 將GA104晶片大砍42%的CUDA數降到標準RTX3060的CUDA數規格其實之前NV就推出過採用GA104核心的RTX3060 在2021年9月～12月出廠的RTX3060 有不低機率拿到GA104核心的可參考之前板上文章： #1XO6noDI (PC_Shopping) https://i.imgur.com/WjkhMeH.png https://i.imgur.com/w6aI8NQ.jpg 核心是GA104-150-A1，DeviceID為2487 當時華碩、技嘉、微星、EVGA、七彩虹、耕宇... 都有網友回報拿到GA104版的RTX3060 過往X104等級晶片降階給60等級卡使用因為切到相同CUDA數，遊戲效能不會有明顯差距但是不同等級晶片中，GPC配置的不同一些專業運算時可能會有隱藏效能加成比如RTX2060 TU104版(當時常見EVGA的2060 KO版) https://i.imgur.com/AGMaARU.jpg 可以看到在Blender測試表現下效能比標準版2060(TU106版)優秀許多 https://youtu.be/mUFRBnJdx3Y

之前2060(TU104版)Gamers Nexus測試這推測可能是GPC結構差異造成 TU104每組GPC是8個SM單元，共6組GPC(3072個CUDA) TU106每組GPC是12個SM單元，共3組GPC(2304個CUDA) TU104要切到2060標準1920個CUDA，勢必無法平均切所以會有更多組GPC結構被保留 GA104和GA106二者的情形也是類似 GA104每組GPC是8個SM單元，共6組GPC(6144個CUDA) https://i.imgur.com/8unkVyx.jpg GA106每組GPC是10個SM單元，共3組GPC(3840個CUDA) https://i.imgur.com/SnokYAH.jpg 當GA104要砍到剩28組SM時最少都還是保留有4組以上的GPC 甚至可能保留到6組GPC(各組GPC平均遮蔽) 這樣仍然比GA106先天結構只有3組GPC多擁有更多組GPC結構的差異推測在一些重度thread運算情況時調度上可能效率會更高一些之前一些RTX3060 GA106版和GA104版的對比測試一樣可以看到GA104版在運算渲染上表現更佳 https://tinyurl.com/2292ybnd Reddit討論，3060 GA104版的Blender測試快非常多 https://www.chiphell.com/thread-2426664-1-1.html 對岸網友測試 3060 GA104版在DaVinci Fusion渲染速度可提昇10% 不過當時RTX3060 GA104版存在市面上時間不長而且通常要上機才能確認核心(各大廠那時混著核心賣) 所以有運算需求的人也不容易挑到GA104核心的3060 這次如果RTX3060 12GB推出GDDR6X版本核心一定都是GA104，才能支援GDDR6X 不必像之前要挑核心才能拿到GA104版本的3060 雖然用GDDR6X功耗也會增加一些但採用GA104核心，且又配置12GB VRAM 對於有專業運算需求的人，也許是一個不錯的選擇 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.187.100.246 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1678247472.A.54F.html

推 smallreader: （加入願望清單 03/08 11:56

推 overno: 加價賣 03/08 12:01

推 tagalong1024: 推～ 03/08 12:21

推 ayanami00: 但是有專業需求的，不會需要省這個錢在這個價位上買吧 03/08 12:32

推 Arbin: 看你的「專業需求」到哪邊，不過依照本版標準大概會先叫你 03/08 12:35

→ Arbin: 用colab 03/08 12:35

→ tint: 這張卡主要是一些專業運算有趨近3060Ti表現且又有12GB VRAM 03/08 12:36

推 oopFoo: 你想的太複雜了。一個是4MB/SM的L2，一個是3MB/SM的L2。 03/08 12:59

→ oopFoo: 某些運算，L2多的贏。 03/08 13:00

→ oopFoo: 然後rtx40系列，L2加大很多。 03/08 13:02

→ tint: NV它SM的L2會一起砍之前桌面3050用GA106核心 SM的L2砍到2MB 03/08 13:12

→ tint: 像40系列的4060桌面版之前的爆料L2從AD107滿規32MB砍到24MB 03/08 13:15

→ tint: https://i.imgur.com/FmIMJmH.png 03/08 13:15

→ tint: https://i.imgur.com/Cb3VgTI.jpg 03/08 13:15

※ 編輯: tint (218.187.100.246 臺灣), 03/08/2023 13:16:26

推 leviva: 請問oop大，三倍L2 / 三倍L3, 哪一種cpu跑遊戲更快？ 03/08 13:17

→ tint: 像3060 GA104和3050 GA106 它的L2仍是砍成標準的3MB和2MB 03/08 13:18

→ tint: NV的刀工是很細膩的像當年970就是刀法太細膩砍到ROP數量 03/08 13:23

→ tint: 才會造成後來的3.5GB VRAM爭議事件 03/08 13:23

→ tint: https://i.imgur.com/k0gy15Q.jpg 右表是NV承認970實際規格 03/08 13:25

→ tint: 970實際上的規格是56個ROP L2為1.75MB而不是最初宣稱的2MB 03/08 13:26

推 oopFoo: 是啊，NV可以砍，但砍下來，性能因為調度而差那麼多？不太 03/08 14:06

→ oopFoo: 可能。現在跑gpu code，基本上等data的時間是最多的，線序 03/08 14:07

→ oopFoo: 再多，幫助有限，卡還是卡資料頻寬。NV跟I家都是增加L2， 03/08 14:09

→ oopFoo: 因為現代硬體跟程式碼的架構，加L2的效果較好。在GPU裡L3 03/08 14:13

→ oopFoo: 有點尷尬，還不如記憶體頻寬加大一點，主要是GPU吞吐資料 03/08 14:15

→ oopFoo: 量實在太大，大L2+大頻寬的效果是目前最好的。 03/08 14:17

推 oopFoo: https://tinyurl.com/5n6h4s4x 03/08 14:22

→ oopFoo: 如何有效利用L2的locality一直是最佳化的問題。加大比較 03/08 14:24

→ oopFoo: 簡單，改程式比較困難。 03/08 14:25

→ wertyorz: 這個3060的12G一出，那個謠傳的4060 8G就真的不用混了 03/08 14:34

→ tint: 當年的2060 TU104版 L2規格一樣砍成3MB 但Blender渲染結果 03/08 14:45

→ leviva: 看到時候實際價錢，如果12490~12990元/等效3060 ti, 4060 03/08 14:47

→ leviva: 又會是絕大多數人的首選 03/08 14:47

→ tint: 效率提昇非常多這其實滿有趣的 03/08 14:47

→ tint: 當年2060Super的L2完整保留規格有標出L2是完整4MB 03/08 14:48

→ tint: 如果2060 TU104版和3060 GA104版實際上規格是完整L2 4MB 03/08 14:50

→ tint: 那只能說NV非常佛心了 03/08 14:51

推 wolver: 價格才是重點 03/08 14:53

→ wolver: 皮衣刀客現在沒那麼佛心 03/08 14:54

→ tint: https://tinyurl.com/352kyvk3 2060 TU104版 TPU資料庫規格 03/08 14:55

→ tint: https://tinyurl.com/ykeftac8 3060 GA104版 TPU資料庫規格 03/08 14:56

→ tint: L2快取都是標示3MB而已如果實際上是4MB 這就非常有趣了 03/08 14:57

推 oopFoo: 我可能猜錯，但性能差這麼多，如果L2不變，那就是L2的 03/08 15:00

→ sorrojvr: ai當道老黃只會越來越貴 03/08 15:01

→ oopFoo: latency差很多。但latency差多的話，基本上所有程式都會有 03/08 15:02

→ oopFoo: 改進。所以猜L2的size不一樣是最有可能的。我還是不相信 03/08 15:03

→ oopFoo: 線序調度可以差這麼多。不是不可能，但我想不出怎樣的程式 03/08 15:06

→ oopFoo: 會這樣。 03/08 15:06

→ tint: 如果L2容量沒砍這樣應該也會反映在遊戲效能上？ 03/08 15:11

→ tint: 當時我幫人裝機有裝過ASUS和EVGA的3060 GA104版 03/08 15:11

→ tint: 型號3060 Dual和3060 XC 但和GA106標準版遊戲效能幾乎沒差別 03/08 15:13

→ tint: https://i.imgur.com/N68NPcr.png 03/08 15:15

推 oopFoo: L2沒砍，遊戲影響比較小，compute影響比較大。主要是106的 03/08 15:22

→ oopFoo: sm/gpc比104的sm/gpc多。理論上反而是106在調度上有優勢， 03/08 15:23

→ oopFoo: 所以我實在想不出需要多跨gpc效能反而高？到底是什麼神奇 03/08 15:25

→ oopFoo: 程式。不然就是L0的設計是不一樣。不管如何我還是盲猜 03/08 15:26

→ oopFoo: 是Cache的幫助。 03/08 15:27

推 dreamix: 好哦，3060Ti Pro Max 真是太專業滿出來 03/08 16:50

→ ksng1092: 是說他為什麼要在消費級市場出一個可以跑專業運算的東西 03/08 16:58

→ StarHero: 卡是奈米製程，刀工也是奈米等級的 03/08 16:58

→ StarHero: 因為晶片還一大遍山頭的庫存 03/08 16:59

→ leo3258: 老黃聽到各位的心聲這張加價多賣5k很合理 03/08 18:56

推 AreLies: 庫存太多 03/09 01:02

→ sam80709: 便宜的還在海上漂 03/09 13:31

→ tint: 目前有差異的都是重度渲染運算工作並沒有太神奇的程式 03/17 16:50

→ tint: 我覺得有可能04等級以上的晶片 SM和GPC的比例更符合重度運算 03/17 16:51

→ tint: GA104每組GPC是8個SM單元 GA106每組GPC是10個SM單元 03/17 16:53

→ tint: GA106這樣的配置比例可能滿載重度運算下前端會有瓶頸 03/17 16:59

→ tint: 滿載處理效率沒有GA104的配置高但06級以下畢竟更要成本考量 03/17 17:01