推 w1222067: 都有預算6000了 還需要想嗎 36.233.99.112 02/11 10:42
推 pphyy5844548: 我覺得東西一多問題比較大,換pro 39.14.17.171 02/11 10:45
→ pphyy5844548: 6000 39.14.17.171 02/11 10:45
推 lordmi: 半年前問的話你還有X99並聯主板加3090魔 223.136.121.73 02/11 10:52
→ lordmi: 改卡x4這個選擇,現在就不用想了 223.136.121.73 02/11 10:52
推 GenShoku: 你只卡在120B的話6000還行,不然直上大 114.137.181.80 02/11 11:06
→ GenShoku: 容量mac比較實在 114.137.181.80 02/11 11:06
推 yymeow: 問題在於原PO是要跑得起來還是跑得不慢 60.250.130.216 02/11 11:16
→ yymeow: 跑得起來,用多張顯卡加上GPU layer off- 60.250.130.216 02/11 11:17
→ yymeow: load是可以上去,但是會卡PCIe還有卡對卡 60.250.130.216 02/11 11:17
→ yymeow: 傳輸瓶頸。若是要順還是要上6000的卡,或 60.250.130.216 02/11 11:18
→ yymeow: 是找統一記憶體的mac mini或GX10 60.250.130.216 02/11 11:18
→ yymeow: 公司用一律上6000的卡,個人的話可以用統 60.250.130.216 02/11 11:19
→ yymeow: 一記憶體的解決方案 60.250.130.216 02/11 11:20
推 patvessel: 層數分割其實對於pcie頻寬的要求很低 125.229.28.82 02/11 11:22
→ patvessel: 只要能塞進vram 傳輸的只有中間值就算 125.229.28.82 02/11 11:22
→ patvessel: 是礦機板都可以跑的起來 125.229.28.82 02/11 11:22
→ patvessel: 只有初次載入會比較慢 125.229.28.82 02/11 11:22
推 yenchieh1102: 光華在海鮮上了一堆運算卡,你去看 220.134.44.227 02/11 11:24
→ yenchieh1102: 看,我剛看到一個VRAM 72G的鬼東西 220.134.44.227 02/11 11:24
→ yenchieh1102: 還比pro 6000便宜 220.134.44.227 02/11 11:24
→ patvessel: 真正的推理的瓶頸還是在vram頻寬 125.229.28.82 02/11 11:25
→ patvessel: 反而是統一記憶體的方案大多會在預充填 125.229.28.82 02/11 11:25
→ patvessel: 階段帶來顯著的落差 125.229.28.82 02/11 11:25
推 eddy13: 5090跑30B A3B應該很快吧114.137.221.213 02/11 11:29
→ newyorker54: 所以請問mac studio 會優於pro 6000? 140.116.98.194 02/11 11:29
推 patvessel: 不會 頻寬和算力都有落差 125.229.28.82 02/11 11:33
→ patvessel: mac 比較像是想省電省空間的權衡方案 125.229.28.82 02/11 11:34
→ patvessel: 單論性能可能還不如你直接塞第三張卡 125.229.28.82 02/11 11:34
→ patvessel: 依我個人立場來說的話 125.229.28.82 02/11 11:38
→ patvessel: 現在這個狀況想初期省錢就塞第三張卡 125.229.28.82 02/11 11:38
→ patvessel: 可以兼顧效能和短期錢包 125.229.28.82 02/11 11:38
→ patvessel: 缺點是供電和排熱環境可能要一起整理 125.229.28.82 02/11 11:38
→ patvessel: 願意多花錢又想追求效能那就上6000 125.229.28.82 02/11 11:38
→ patvessel: 如果要極致的省空間和省電才選擇mac 125.229.28.82 02/11 11:38
→ patvessel: 但同時犧牲了核心算力效能頻寬 和生態 125.229.28.82 02/11 11:38
→ patvessel: 成熟度 125.229.28.82 02/11 11:38
推 lordmi: 哪個更好取決於你的工作重心在哪 如果是 122.116.29.245 02/11 11:43
→ lordmi: 訓練10億個tokens,pro6000理論上快7倍。 122.116.29.245 02/11 11:43
→ lordmi: 如果是推論 最大512gb的studio 比 96gb的 122.116.29.245 02/11 11:43
→ lordmi: pro6000有用很多 122.116.29.245 02/11 11:43
推 agnme2: 5060ti*3+256gb quad _ddr4 2933路過 49.215.231.219 02/11 11:43
推 patvessel: lordmi說的有道理 我的說法是根據原PO 125.229.28.82 02/11 11:45
→ patvessel: 開出的模型清單給的建議 如果想用更大 125.229.28.82 02/11 11:46
推 agnme2: 重點應該在用途,跟能忍受的速度與智商之 49.215.231.219 02/11 11:46
→ agnme2: 間均衡取捨,有錢的話就沒差直接買h200_xd 49.215.231.219 02/11 11:46
→ patvessel: 的模型那前提自然不成立 可以考慮MAC 125.229.28.82 02/11 11:46
→ patvessel: 但是120B的狀況下 是用不到512GB的統一 125.229.28.82 02/11 11:47
→ patvessel: 記憶體的 125.229.28.82 02/11 11:47
→ patvessel: 而要是真的用到512GB的大型模型的話 125.229.28.82 02/11 11:48
→ patvessel: MAC的頻寬又會限制推論速度 125.229.28.82 02/11 11:49
→ patvessel: 那就又回到一開始的問題了 跑得慢 125.229.28.82 02/11 11:49
推 patvessel: 花了更多錢 跑了更大的模型 但是跑得一 125.229.28.82 02/11 11:52
→ patvessel: 樣慢 可能不是原PO想要的吧 125.229.28.82 02/11 11:52
→ vsbrm: 先提預算再來講效果 42.77.60.78 02/11 11:57
推 jychu1132: 不爆VRAM的話PRO 6000 CP值最高 36.225.79.207 02/11 11:59
→ promaster: 不計較預算就mac studio 512GB買齊 1.161.161.205 02/11 12:05
→ promaster: 然後賣掉你現在這套貼補回mac studio 1.161.161.205 02/11 12:05
→ promaster: 絕大部分llm你都能跑了 1.161.161.205 02/11 12:06
→ promaster: 速度怎樣是另外一回事 1.161.161.205 02/11 12:07
推 GenShoku: 現在一堆模型都有flash版,速度其實也不 114.137.181.80 02/11 12:16
→ GenShoku: 會差到不好用,但Mac統合記憶體的超大ra 114.137.181.80 02/11 12:16
→ GenShoku: m就是直接決定你可以使用的模型上限跟上 114.137.181.80 02/11 12:16
→ GenShoku: 下文長度,你如果沒那麼在意速度,以後 114.137.181.80 02/11 12:16
→ GenShoku: 又想跑像step 3.5這類超大模型(192B), 114.137.181.80 02/11 12:16
→ GenShoku: 直上Mac Studio(256G應該就夠用)會是比 114.137.181.80 02/11 12:16
→ GenShoku: 較實際的選擇 114.137.181.80 02/11 12:16
推 jeff85898: 不用換主板 現在Pcie 5.0 x16頻寬很夠 111.246.10.232 02/11 12:21
→ jeff85898: 用的 111.246.10.232 02/11 12:21
→ jeff85898: 你這張板子有兩組 上拆分卡 可以裝4卡P 111.246.10.232 02/11 12:21
→ jeff85898: cie4.0x16不損效能 111.246.10.232 02/11 12:21
推 Shigeru777: 很執著要跑 GPT OSS 120B的話 直接買 101.10.218.14 02/11 12:31
→ Shigeru777: 個 Mac Studio 256GB 實在 101.10.218.14 02/11 12:31
→ jychu1132: PRO 6000用llama.cpp跑gpt-oss-120b: 36.225.79.207 02/11 12:36
推 saito2190: 你要跑120那就直接買GB10的東西 114.137.71.161 02/11 12:43
→ saito2190: 看是NV的Spark還是ASUS GX10 114.137.71.161 02/11 12:43
→ saito2190: 速度不會是最快 但絕對夠用 114.137.71.161 02/11 12:43
→ saito2190: 如果真的要速度也不要用ollama 114.137.71.161 02/11 12:43
→ saito2190: llama.cpp簡單易用 快10%以上 114.137.71.161 02/11 12:43
→ saito2190: 如果願意花時間學再去搞vllm 114.137.71.161 02/11 12:43
→ saito2190: MAC體系用EXO或MLX應該比較好 114.137.71.161 02/11 12:46
→ saito2190: 但我沒研究過 114.137.71.161 02/11 12:46
推 s78513221: 窮人如我,120b接OpenRouter就好 111.71.77.217 02/11 13:02
推 patvessel: 我是真的看的一頭霧水 現在原po都說問 49.215.242.63 02/11 14:31
→ patvessel: 題不是跑不動 是速度太慢才想升級 怎麼 49.215.242.63 02/11 14:32
→ patvessel: 這麼多人在說速度不重要先買mac ... 49.215.242.63 02/11 14:32
→ patvessel: 不止mac 統一記憶體的東西頻寬上限就在 49.215.242.63 02/11 14:35
→ patvessel: 那邊 要買當然可以 但是那都是權衡和取 49.215.242.63 02/11 14:35
→ patvessel: 捨 49.215.242.63 02/11 14:35
→ patvessel: 真的要便宜連spark或GX10都不用 買個ry 49.215.242.63 02/11 14:35
→ patvessel: zen al 395+ 128g就好了 49.215.242.63 02/11 14:35
推 GenShoku: 沒有看不懂啊 原po不都在文內說慢可接受 114.137.181.80 02/11 14:46
→ GenShoku: 就代表原po是有一定程度的耐慢能力 不 114.137.181.80 02/11 14:46
→ GenShoku: 需要字串用噴出來的速度 所以回答原po只 114.137.181.80 02/11 14:46
→ GenShoku: 跑120B可以挑6000沒錯 但如果未來想跑更 114.137.181.80 02/11 14:46
→ GenShoku: 高等級的模型就考慮mac 有啥問題? 而且M 114.137.181.80 02/11 14:46
→ GenShoku: 5也會把記憶體頻寬大升級 還有神經加速 114.137.181.80 02/11 14:46
→ GenShoku: 你除非要玩訓練或是對速度真的有非常敏 114.137.181.80 02/11 14:46
→ GenShoku: 感的要求那選N卡ok 但未來還想往更大的 114.137.181.80 02/11 14:46
→ GenShoku: 模型去玩 裝不裝的下就會是重點考量項目 114.137.181.80 02/11 14:46
→ GenShoku: 啊 114.137.181.80 02/11 14:46
推 GenShoku: amd的AI生態我不敢亂推就是 114.137.181.80 02/11 14:48
→ GenShoku: 參考這支影片,我覺得這位有把目前主流 114.137.181.80 02/11 14:49
→ GenShoku: 本地玩法的比較都講得蠻清楚的 114.137.181.80 02/11 14:49
→ patvessel: 總之我就先從原po 的場景下去講 49.215.242.63 02/11 15:01
→ patvessel: 模型oss120b 希望提升推論效率 單或低 49.215.242.63 02/11 15:01
→ patvessel: 併發 49.215.242.63 02/11 15:01
→ patvessel: 1.可能最便宜的方式 :想辦法多接一張 49.215.242.63 02/11 15:01
→ patvessel: 顯示卡讓vram塞得下權重和kv快取 按照v 49.215.242.63 02/11 15:01
→ patvessel: ram頻寬速度比例適當分配層數讓不要成 49.215.242.63 02/11 15:01
→ patvessel: 明顯瓶頸(pcie頻寬只會影響初次載入模 49.215.242.63 02/11 15:01
→ patvessel: 型的時間 相對不重要 可能USB都可以) 49.215.242.63 02/11 15:01
→ patvessel: 弄模型分層跑管線 49.215.242.63 02/11 15:01
→ patvessel: 缺點:供電 散熱是大問題 要想辦法處 49.215.242.63 02/11 15:01
→ patvessel: 理 長期可能更貴 模型分層要自己調到 49.215.242.63 02/11 15:01
→ patvessel: 最佳方案 49.215.242.63 02/11 15:01
→ patvessel: 2.省事高效能的方案:直接買rtx 6000 p 49.215.242.63 02/11 15:01
→ patvessel: ro 49.215.242.63 02/11 15:01
→ patvessel: 記憶體頻寬直接衝上本世代消費級極限 49.215.242.63 02/11 15:01
→ patvessel: 推論效能和預處理都穩定 不用搞散熱和 49.215.242.63 02/11 15:01
→ patvessel: 供電 將來有擴充空間 可以塞第二三張 49.215.242.63 02/11 15:01
→ patvessel: 缺點:貴 想插第二三張更貴 49.215.242.63 02/11 15:01
→ patvessel: 3.提升較小但是戰未來的方案:統一記憶 49.215.242.63 02/11 15:01
→ patvessel: 體方案 包含mac GX10 strixhalo 49.215.242.63 02/11 15:01
→ patvessel: 統一記憶體至少會比現狀的swap地獄快一 49.215.242.63 02/11 15:01
→ patvessel: 點 但是性能提升會遠不如同等級的上述 49.215.242.63 02/11 15:01
→ patvessel: 兩個方案 優點是如果將來有更大的模型 49.215.242.63 02/11 15:01
→ patvessel: 可能可以用更慢的速度跑 49.215.242.63 02/11 15:01