看板 PC_Shopping 關於我們 聯絡資訊
如果你今天只打算用ollama跑 那建議你放棄更新硬體了 直接用網路上的API比較划算 以oss-120B為例子 你用現在的硬體跑估計每秒20左右吧? 你換Pro 6000大概也才8~90每秒 比對現在API價格 你的Pro 6000大概要不眠不休輸出20年才可以回本 而且這還是不考慮電費的情況 然後就是你買GPU如果只是為了VRAM 那這和你直接插RAM沒什麼差別 我不是很確定目前ollama能不能支援張量並行 但就算支援張量並行 你的速度也會受限於比較慢的那張卡 再者就是如果要張量並行 你的GPU數量只能是2的指數個 用3片GPU是毫無意義的 有人可能會好奇那Pro 6000不就是垃圾? 上面之所以會說要不眠不休20年才會回本 是因為原po是打算用ollama跑 他只能單一時間為單一request服務 目前主流都是在Linux環境用vllm跑模型推論服務 同時為多人服務 高併發情境下讓他保持最大吞吐量 大概可以不到半年就回本 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.39.243.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770879748.A.7EE.html
saito2190: 我也是被ollama的低效率坑過,最坑的 1.161.155.235 02/12 19:51
saito2190: 是他不能同時發request,只能排隊 1.161.155.235 02/12 19:51
saito2190: 所以我後來直接投入vllm的懷抱 1.161.155.235 02/12 19:51
saito2190: 有時候硬體投資不一定是要回本,說不 1.161.155.235 02/12 19:51
saito2190: 定原PO有必須落地使用的場景 1.161.155.235 02/12 19:51
YCL13: 我也是棄ollama,覺得最佳化調整不易 1.161.130.221 02/12 21:22
YCL13: 不過GPT-oss 120B在使用上只需要用MOE架構 1.161.130.221 02/12 21:22
YCL13: 來跑就可以達到很好的效果,並不需用vllm的 1.161.130.221 02/12 21:23
YCL13: 張量並行來應用多GPU 1.161.130.221 02/12 21:23
YCL13: 我只用5080+64G RAM就可以跑20左右 1.161.130.221 02/12 21:24
patvessel: GPTOSS120B能夠不用MOE架構來跑嗎.. 125.229.28.82 02/13 18:27
patvessel: 我在用的環境輸入遠高於輸出 尤其大型 125.229.28.82 02/14 02:05
patvessel: 規範檔案一放就是五萬十萬起跳 125.229.28.82 02/14 02:06
YCL13: GPT oss是MOE架構,所以跑起來就是MOE,我 1.161.157.30 02/14 07:16
YCL13: 的說法很不精確,應該說在單一GPU的VRAM不 1.161.157.30 02/14 07:16
YCL13: 足的前題下,可以考慮利用MOE架構特性,將 1.161.157.30 02/14 07:16
YCL13: 全部模型都offload到DRAM上,GPU只跑MOE層 1.161.157.30 02/14 07:17
YCL13: ,這樣是最划算的選擇 1.161.157.30 02/14 07:17
YCL13: 我的經驗是2張5080加部分offload的速度並不 1.161.157.30 02/14 07:20
YCL13: 會比較快比單5080來得快,可惜我今年才知道 1.161.157.30 02/14 07:21
YCL13: 這個特性,現在的DRAM買不下手了 1.161.157.30 02/14 07:21
YCL13: 上二行多字了,應為 "不會比單5080來得快" 1.161.157.30 02/14 07:22
YCL13: 想起前陣子研究這模型時,去年有人說花70ti 1.161.157.30 02/14 07:30
YCL13: 的錢買256G DRAM比買第二張90划算,難怪RAM 1.161.157.30 02/14 07:30
YCL13: 價格要爆漲呀,因為MOE架構讓PC玩家可以輕 1.161.157.30 02/14 07:30
YCL13: 鬆跑200B等級的大模型,如果不在乎速度和精 1.161.157.30 02/14 07:30
YCL13: 度,甚至1T等級的也可以跑了 1.161.157.30 02/14 07:31
YCL13: 不過這是消費等級的事,能買pro 6000的話, 1.161.157.30 02/14 07:35
YCL13: 全載到VRAM上用MXFP4跑,大概是200等級,差 1.161.157.30 02/14 07:35
YCL13: 距非常大,也才適合跑這篇說的agent服務 1.161.157.30 02/14 07:35
patvessel: 因為序列運算會被最慢的環節拖累 125.229.28.82 02/14 08:41
patvessel: 所以沒有升級到可以全部讀到VRAM裡面 125.229.28.82 02/14 08:41
patvessel: 的話升級的確是會沒有什麼感覺 125.229.28.82 02/14 08:42
patvessel: 主因是活動參數小所以對於頻寬的要求低 125.229.28.82 02/14 08:44
patvessel: 也是有些MOE沒有切那麼細的 125.229.28.82 02/14 08:45
patvessel: 而且這都是進到生成階段的事情 125.229.28.82 02/14 08:46
patvessel: 上下文一長CPU預充填就等死人了 125.229.28.82 02/14 08:46
YCL13: 確實是要看最慢環節,我在自己PC玩過5080+ 1.161.157.30 02/14 09:09
YCL13: 5060ti16Gx2,總共48G,但速度真被第3張跑 1.161.157.30 02/14 09:10
YCL13: pcie4X4的60ti嚴重拖累 1.161.157.30 02/14 09:10
waldo870: 換個軟體會發現新世界 101.10.251.165 02/14 20:09
newyorker54: 花了兩天休假時間,總算在vllm架好 g 42.78.52.93 02/15 14:36
newyorker54: pt-oss:120b, 感謝各位高手提點 42.78.52.93 02/15 14:36
newyorker54: 接著想挑戰step-flash-3.5 42.78.52.93 02/15 14:37
newyorker54: 我很恐懼一件事,當人類登陸月球後破 36.237.191.153 02/15 17:08
newyorker54: 滅了嫦娥廣寒宮的神話及天庭的幻想, 36.237.191.153 02/15 17:08
newyorker54: 如果AI 證明了人腦神經運作和晶元半 36.237.191.153 02/15 17:08
newyorker54: 導體運作相似,破滅了靈魂和性格的神 36.237.191.153 02/15 17:08
newyorker54: 話,人的價值和存在是什麼? 36.237.191.153 02/15 17:09
newyorker54: 這兩天一直用 chatgpt 5.2 pro幫忙, 36.237.191.153 02/15 17:14
newyorker54: 經過大量執行報錯和修正,安裝好vllm 36.237.191.153 02/15 17:14
newyorker54: ,wsl指令還掛掉,cuda toolkit新版 36.237.191.153 02/15 17:14
newyorker54: 不能用,下載被攔截,其他AI模型不斷 36.237.191.153 02/15 17:14
newyorker54: 引導錯誤甚至鬼打牆,總算裝好了 36.237.191.153 02/15 17:14
patvessel: 問題應該不是被第三張60TI拖累 125.229.28.82 02/16 00:54
patvessel: 而是因為48G還是放不下所有權重 125.229.28.82 02/16 00:55
patvessel: 還是會有部分被offload到系統RAM裡面 125.229.28.82 02/16 00:55
patvessel: 所以最慢的是系統ram那塊 125.229.28.82 02/16 00:55
patvessel: 只要沒辦法全部塞進VRAM 有一部分必須 125.229.28.82 02/16 00:56
patvessel: 放在系統RAM的話 那不管幾張卡 瓶頸 125.229.28.82 02/16 00:56
patvessel: 都還是那個最慢的DDR4/5 而不是顯示卡 125.229.28.82 02/16 00:56
patvessel: 因為分層 傳輸的中間值是塞不滿PCIE的 125.229.28.82 02/16 00:57
patvessel: 至於人的價值...為什麼你會希望人類有 125.229.28.82 02/16 00:58
patvessel: 什麼天命還是價值是其他東西沒有的? 125.229.28.82 02/16 00:58
patvessel: 如果真的有價值的東西 那不管背後是 125.229.28.82 02/16 00:59
patvessel: 神經元還是矽晶片 那就是會有價值 125.229.28.82 02/16 00:59
patvessel: 價值不由載體決定 125.229.28.82 02/16 00:59
newyorker54: 經過兩天總時睡不到十小時,確定vllm 36.237.191.153 02/16 02:38
newyorker54: 在wsl中不支援NCCL所以不能用張量並 36.237.191.153 02/16 02:38
newyorker54: 行,只能用Linux系統所以我放棄張量 36.237.191.153 02/16 02:38
newyorker54: 並行,網路也有人證實這點,想用的人 36.237.191.153 02/16 02:38
newyorker54: 可以放棄了。至於llama.cpp應該可以s 36.237.191.153 02/16 02:38
newyorker54: pilit目前還在下載gguf過兩天再試 36.237.191.153 02/16 02:38
newyorker54: 樓上有人說因為MOE架構offload影響速 36.237.191.153 02/16 02:41
newyorker54: 度較少,有看到網路有人講,實際如何 36.237.191.153 02/16 02:41
newyorker54: 我再實操看結果 36.237.191.153 02/16 02:41
YCL13: 喔,那個3張GPU共48G VRAM用來測過很多模型 1.161.172.250 02/16 07:50
YCL13: ,最關鍵的一個是Qwen3 Next 80B,雖然可以 1.161.172.250 02/16 07:51
YCL13: 全掛載進VRAM裡,但速度反而沒有變快,就算 1.161.172.250 02/16 07:51
YCL13: 是用5080+5060ti共32G VRAM來部分offload也 1.161.172.250 02/16 07:51
YCL13: 比較快,當然最快的還是我一直說的MOE架構 1.161.172.250 02/16 07:51
YCL13: 的專用跑法,單一5080是最快的 1.161.172.250 02/16 07:51
YCL13: 關於vllm,我是覺得確定要張量並行+批次再 1.161.172.250 02/16 07:59
YCL13: 使用,不然用llama.cpp沒什麼差,而且滿多 1.161.172.250 02/16 08:00
YCL13: 模型的操作文件都會用llama.cpp當範例,用 1.161.172.250 02/16 08:00
YCL13: 起來也會方便一些 1.161.172.250 02/16 08:00
newyorker54: 早上把step-3.5-flash放在llama.cpp 42.78.222.167 02/16 13:00
newyorker54: 全塞進VRAM因為chatgpt5.2建議這樣做 42.78.222.167 02/16 13:00
newyorker54: ,還沒測試 42.78.222.167 02/16 13:00
YCL13: 把step 3.5全載進VRAM,所以您升級GPU了? 1.161.172.250 02/17 09:24
newyorker54: 是的,經過反覆思考,現在不買以後更 36.233.155.76 02/17 10:06
newyorker54: 貴,說不定用了一年還可以加價賣,與 36.233.155.76 02/17 10:06
newyorker54: 其錢拿去換車,不如買卡每天玩本地AI 36.233.155.76 02/17 10:06
mOuOm: 是不是你要開發的東西有機密性質, 49.215.97.32 02/17 22:23
mOuOm: 不然看起來本地端投資不如買Gemini 49.215.97.32 02/17 22:23
mOuOm: ultra或其他模型 49.215.97.32 02/17 22:23