Re: [請益] 兩個改裝方案跑本地LLM請賜教

作者TameFoxx (foxx)

看板PC_Shopping

標題Re: [請益] 兩個改裝方案跑本地LLM請賜教

時間Thu Feb 12 15:02:26 2026

如果你今天只打算用ollama跑那建議你放棄更新硬體了直接用網路上的API比較划算以oss-120B為例子你用現在的硬體跑估計每秒20左右吧? 你換Pro 6000大概也才8~90每秒比對現在API價格你的Pro 6000大概要不眠不休輸出20年才可以回本而且這還是不考慮電費的情況然後就是你買GPU如果只是為了VRAM 那這和你直接插RAM沒什麼差別我不是很確定目前ollama能不能支援張量並行但就算支援張量並行你的速度也會受限於比較慢的那張卡再者就是如果要張量並行你的GPU數量只能是2的指數個用3片GPU是毫無意義的有人可能會好奇那Pro 6000不就是垃圾? 上面之所以會說要不眠不休20年才會回本是因為原po是打算用ollama跑他只能單一時間為單一request服務目前主流都是在Linux環境用vllm跑模型推論服務同時為多人服務高併發情境下讓他保持最大吞吐量大概可以不到半年就回本 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.39.243.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1770879748.A.7EE.html

推 saito2190: 我也是被ollama的低效率坑過，最坑的 1.161.155.235 02/12 19:51

→ saito2190: 是他不能同時發request，只能排隊 1.161.155.235 02/12 19:51

→ saito2190: 所以我後來直接投入vllm的懷抱 1.161.155.235 02/12 19:51

→ saito2190: 有時候硬體投資不一定是要回本，說不 1.161.155.235 02/12 19:51

→ saito2190: 定原PO有必須落地使用的場景 1.161.155.235 02/12 19:51