推 saito2190: 我也是被ollama的低效率坑過,最坑的 1.161.155.235 02/12 19:51
→ saito2190: 是他不能同時發request,只能排隊 1.161.155.235 02/12 19:51
→ saito2190: 所以我後來直接投入vllm的懷抱 1.161.155.235 02/12 19:51
→ saito2190: 有時候硬體投資不一定是要回本,說不 1.161.155.235 02/12 19:51
→ saito2190: 定原PO有必須落地使用的場景 1.161.155.235 02/12 19:51
推 YCL13: 我也是棄ollama,覺得最佳化調整不易 1.161.130.221 02/12 21:22
→ YCL13: 不過GPT-oss 120B在使用上只需要用MOE架構 1.161.130.221 02/12 21:22
→ YCL13: 來跑就可以達到很好的效果,並不需用vllm的 1.161.130.221 02/12 21:23
→ YCL13: 張量並行來應用多GPU 1.161.130.221 02/12 21:23
→ YCL13: 我只用5080+64G RAM就可以跑20左右 1.161.130.221 02/12 21:24
推 patvessel: GPTOSS120B能夠不用MOE架構來跑嗎.. 125.229.28.82 02/13 18:27
推 patvessel: 我在用的環境輸入遠高於輸出 尤其大型 125.229.28.82 02/14 02:05
→ patvessel: 規範檔案一放就是五萬十萬起跳 125.229.28.82 02/14 02:06
推 YCL13: GPT oss是MOE架構,所以跑起來就是MOE,我 1.161.157.30 02/14 07:16
→ YCL13: 的說法很不精確,應該說在單一GPU的VRAM不 1.161.157.30 02/14 07:16
→ YCL13: 足的前題下,可以考慮利用MOE架構特性,將 1.161.157.30 02/14 07:16
→ YCL13: 全部模型都offload到DRAM上,GPU只跑MOE層 1.161.157.30 02/14 07:17
→ YCL13: ,這樣是最划算的選擇 1.161.157.30 02/14 07:17
推 YCL13: 我的經驗是2張5080加部分offload的速度並不 1.161.157.30 02/14 07:20
→ YCL13: 會比較快比單5080來得快,可惜我今年才知道 1.161.157.30 02/14 07:21
→ YCL13: 這個特性,現在的DRAM買不下手了 1.161.157.30 02/14 07:21
→ YCL13: 上二行多字了,應為 "不會比單5080來得快" 1.161.157.30 02/14 07:22
推 YCL13: 想起前陣子研究這模型時,去年有人說花70ti 1.161.157.30 02/14 07:30
→ YCL13: 的錢買256G DRAM比買第二張90划算,難怪RAM 1.161.157.30 02/14 07:30
→ YCL13: 價格要爆漲呀,因為MOE架構讓PC玩家可以輕 1.161.157.30 02/14 07:30
→ YCL13: 鬆跑200B等級的大模型,如果不在乎速度和精 1.161.157.30 02/14 07:30
→ YCL13: 度,甚至1T等級的也可以跑了 1.161.157.30 02/14 07:31
推 YCL13: 不過這是消費等級的事,能買pro 6000的話, 1.161.157.30 02/14 07:35
→ YCL13: 全載到VRAM上用MXFP4跑,大概是200等級,差 1.161.157.30 02/14 07:35
→ YCL13: 距非常大,也才適合跑這篇說的agent服務 1.161.157.30 02/14 07:35
推 patvessel: 因為序列運算會被最慢的環節拖累 125.229.28.82 02/14 08:41
→ patvessel: 所以沒有升級到可以全部讀到VRAM裡面 125.229.28.82 02/14 08:41
→ patvessel: 的話升級的確是會沒有什麼感覺 125.229.28.82 02/14 08:42
→ patvessel: 主因是活動參數小所以對於頻寬的要求低 125.229.28.82 02/14 08:44
→ patvessel: 也是有些MOE沒有切那麼細的 125.229.28.82 02/14 08:45
→ patvessel: 而且這都是進到生成階段的事情 125.229.28.82 02/14 08:46
→ patvessel: 上下文一長CPU預充填就等死人了 125.229.28.82 02/14 08:46
推 YCL13: 確實是要看最慢環節,我在自己PC玩過5080+ 1.161.157.30 02/14 09:09
→ YCL13: 5060ti16Gx2,總共48G,但速度真被第3張跑 1.161.157.30 02/14 09:10
→ YCL13: pcie4X4的60ti嚴重拖累 1.161.157.30 02/14 09:10
推 waldo870: 換個軟體會發現新世界 101.10.251.165 02/14 20:09
推 newyorker54: 花了兩天休假時間,總算在vllm架好 g 42.78.52.93 02/15 14:36
→ newyorker54: pt-oss:120b, 感謝各位高手提點 42.78.52.93 02/15 14:36
→ newyorker54: 接著想挑戰step-flash-3.5 42.78.52.93 02/15 14:37
推 newyorker54: 我很恐懼一件事,當人類登陸月球後破 36.237.191.153 02/15 17:08
→ newyorker54: 滅了嫦娥廣寒宮的神話及天庭的幻想, 36.237.191.153 02/15 17:08
→ newyorker54: 如果AI 證明了人腦神經運作和晶元半 36.237.191.153 02/15 17:08
→ newyorker54: 導體運作相似,破滅了靈魂和性格的神 36.237.191.153 02/15 17:08
→ newyorker54: 話,人的價值和存在是什麼? 36.237.191.153 02/15 17:09
→ newyorker54: 這兩天一直用 chatgpt 5.2 pro幫忙, 36.237.191.153 02/15 17:14
→ newyorker54: 經過大量執行報錯和修正,安裝好vllm 36.237.191.153 02/15 17:14
→ newyorker54: ,wsl指令還掛掉,cuda toolkit新版 36.237.191.153 02/15 17:14
→ newyorker54: 不能用,下載被攔截,其他AI模型不斷 36.237.191.153 02/15 17:14
→ newyorker54: 引導錯誤甚至鬼打牆,總算裝好了 36.237.191.153 02/15 17:14
推 patvessel: 問題應該不是被第三張60TI拖累 125.229.28.82 02/16 00:54
→ patvessel: 而是因為48G還是放不下所有權重 125.229.28.82 02/16 00:55
→ patvessel: 還是會有部分被offload到系統RAM裡面 125.229.28.82 02/16 00:55
→ patvessel: 所以最慢的是系統ram那塊 125.229.28.82 02/16 00:55
→ patvessel: 只要沒辦法全部塞進VRAM 有一部分必須 125.229.28.82 02/16 00:56
→ patvessel: 放在系統RAM的話 那不管幾張卡 瓶頸 125.229.28.82 02/16 00:56
→ patvessel: 都還是那個最慢的DDR4/5 而不是顯示卡 125.229.28.82 02/16 00:56
→ patvessel: 因為分層 傳輸的中間值是塞不滿PCIE的 125.229.28.82 02/16 00:57
→ patvessel: 至於人的價值...為什麼你會希望人類有 125.229.28.82 02/16 00:58
→ patvessel: 什麼天命還是價值是其他東西沒有的? 125.229.28.82 02/16 00:58
→ patvessel: 如果真的有價值的東西 那不管背後是 125.229.28.82 02/16 00:59
→ patvessel: 神經元還是矽晶片 那就是會有價值 125.229.28.82 02/16 00:59
→ patvessel: 價值不由載體決定 125.229.28.82 02/16 00:59
推 newyorker54: 經過兩天總時睡不到十小時,確定vllm 36.237.191.153 02/16 02:38
→ newyorker54: 在wsl中不支援NCCL所以不能用張量並 36.237.191.153 02/16 02:38
→ newyorker54: 行,只能用Linux系統所以我放棄張量 36.237.191.153 02/16 02:38
→ newyorker54: 並行,網路也有人證實這點,想用的人 36.237.191.153 02/16 02:38
→ newyorker54: 可以放棄了。至於llama.cpp應該可以s 36.237.191.153 02/16 02:38
→ newyorker54: pilit目前還在下載gguf過兩天再試 36.237.191.153 02/16 02:38
→ newyorker54: 樓上有人說因為MOE架構offload影響速 36.237.191.153 02/16 02:41
→ newyorker54: 度較少,有看到網路有人講,實際如何 36.237.191.153 02/16 02:41
→ newyorker54: 我再實操看結果 36.237.191.153 02/16 02:41
推 YCL13: 喔,那個3張GPU共48G VRAM用來測過很多模型 1.161.172.250 02/16 07:50
→ YCL13: ,最關鍵的一個是Qwen3 Next 80B,雖然可以 1.161.172.250 02/16 07:51
→ YCL13: 全掛載進VRAM裡,但速度反而沒有變快,就算 1.161.172.250 02/16 07:51
→ YCL13: 是用5080+5060ti共32G VRAM來部分offload也 1.161.172.250 02/16 07:51
→ YCL13: 比較快,當然最快的還是我一直說的MOE架構 1.161.172.250 02/16 07:51
→ YCL13: 的專用跑法,單一5080是最快的 1.161.172.250 02/16 07:51
推 YCL13: 關於vllm,我是覺得確定要張量並行+批次再 1.161.172.250 02/16 07:59
→ YCL13: 使用,不然用llama.cpp沒什麼差,而且滿多 1.161.172.250 02/16 08:00
→ YCL13: 模型的操作文件都會用llama.cpp當範例,用 1.161.172.250 02/16 08:00
→ YCL13: 起來也會方便一些 1.161.172.250 02/16 08:00
推 newyorker54: 早上把step-3.5-flash放在llama.cpp 42.78.222.167 02/16 13:00
→ newyorker54: 全塞進VRAM因為chatgpt5.2建議這樣做 42.78.222.167 02/16 13:00
→ newyorker54: ,還沒測試 42.78.222.167 02/16 13:00
推 YCL13: 把step 3.5全載進VRAM,所以您升級GPU了? 1.161.172.250 02/17 09:24
推 newyorker54: 是的,經過反覆思考,現在不買以後更 36.233.155.76 02/17 10:06
→ newyorker54: 貴,說不定用了一年還可以加價賣,與 36.233.155.76 02/17 10:06
→ newyorker54: 其錢拿去換車,不如買卡每天玩本地AI 36.233.155.76 02/17 10:06
推 mOuOm: 是不是你要開發的東西有機密性質, 49.215.97.32 02/17 22:23
→ mOuOm: 不然看起來本地端投資不如買Gemini 49.215.97.32 02/17 22:23
→ mOuOm: ultra或其他模型 49.215.97.32 02/17 22:23