看板 AI_Art 關於我們 聯絡資訊
先說,我沒有完整測過,大概就是讓Agent去撈一些評測跟Reddit的討論, 根據我的需求整理過,拋磚引玉給大家看看。 這波熱潮基本上從 2/25公開中模型(27B、35B、122B)到3/2公開小模型(0.8B、2B、4B、9B)開始, 如果有人認為中國跑分有水份、網友吹牛不打草稿我都認為合理, 所以有讓Agent反覆幾收集情報核對,以及用最保守的方式評估這些模型的用途,供參。 - Qwen 3.5 (0.8B / 2B):【口袋裡的物聯網玩具】 硬體門檻:手機、樹莓派、老筆電。 能力畫像:非常基礎。 能做什麼? 適合拿來做 IoT 設備的語音喚醒、極度簡單的單辭意圖辨識(例如:開燈、關門)。 不要指望它能幫你寫 Code 或聊天。 Qwen 3.5 4B:【輕量級自動小幫手】 硬體門檻:8GB VRAM (例如 RTX 3060 / 4060) 就能跑得很歡樂。 能力畫像:記憶體極小,速度極快的輕量級 Agent。 能做什麼? 適合幫你整理簡單的筆記、做日常的網頁腳本自動化。 這一代架構讓 4B 的連貫性大增,堪稱平民救星。 Qwen 3.5 9B:【極度聰明但缺乏常識的高中生】 硬體門檻:單張 24GB VRAM 顯卡 (例如 RTX 3090/4090) 是它的完美載具。 未量化 (FP16) 約佔 18GB,如果用 Q8 量化版還不到 10GB。 能力畫像:引入了 Scaled RL,基準測試越級打怪。它邏輯極強,但可惜世界知識不足。 實戰場景 (文字處理機): 超長文本摘要: 因為它 VRAM 佔用小,你可以輕易在 3090 上開到 64K 或 128K 的上下文。 把三萬字全丟給它,叫它「列出裡面所有的人名與專案」,它會抓得極快且精準。 致命弱點:不要問它冷門知識或叫它寫艱深架構的 Code,因為它「沒讀過那本書」 ,會開始一本正經地胡說八道 (幻覺)。 Qwen 3.5 27B (Dense):【精確而緩慢的狙擊手】 硬體門檻:單張 3090 跑得有點喘 (15-25 t/s);雙卡 3090 (48GB) 是它的最終歸宿, 可以無損跑 Q8 量化加上 128K 完整上下文。 能力畫像:System-1 核心大腦。270億參數每一層都參與運算,底盤極其扎實,邏輯連貫 性逼近早期 GPT-4。 實戰場景 (深度 > 速度): Code Review 與架構重構:把整個 src/ 目錄丟給它,它能看懂複雜專案的依賴關係,而 且不會遺忘前文。 高質量 Roleplay & 心理側寫:角色設定再複雜,它都能咬死設定不崩壞。 批次資料萃取:丟幾十萬筆 Log 讓它在背景慢慢轉,幻覺率極低。 這 15 t/s 的速度就像人類精讀,又慢又穩。 Qwen 3.5 35B-A3B (MoE):【無情的機關槍陣列】 硬體門檻:雙卡 24GB VRAM (總共 48GB)。 能力畫像:MoE (混合專家) 架構的怪物。雖然總體積 35B,但每次吐字只啟動 3B。 實戰場景 (廣度與速度 > 深度): 前線接待員 (Router):作為系統的第一道門,以 70-100+ t/s 的瘋狂速度,瞬間判斷 User 的意圖,決定派發給哪個工具。 瘋狂的 Function Calling:需要大量叫用外部 API 爬蟲時,它反應快、懂 JSON 格式, 完全不需要思考太深。 即時網頁自動化:看到畫面瞬間噴出下一步點擊的 X,Y 座標,速度如瀑布般傾瀉。 總結與硬體建議: 如果你想真正在本地端玩轉新一代的開源 LLM,24GB VRAM 是最低的 「自由門檻」。 結論: 要速度跟純處理文字:單卡 3090 跑 9B。 要長文本護城河跟深度邏輯:雙卡 3090 跑 27B / 35B。 這也是為什麼現在外網 r/LocalLLaMA 瘋狂掃蕩二手 3090 的原因。 面對 50 系列的 VRAM 閹割,不用花幾十萬去追新卡, 一張 3090,才是探索這波模型的真理。 - 當然,如果你只是偶爾才要用LLM,或用途高度聚焦在推理與Coding, 那我覺得用就是用最好的 Cluade MAX 20$ 買下去,開源模型跟你沒有半毛錢關係。 但正因為我們進入了【龍蝦時代】,盡管可能不是所有人都需要, 如果真的有 24 小時待命的助理需求,及 Cluade 跟 Gemini 開始嚴格取締偷接訂閱後, API 經濟肯定會是大家遲早要面對的問題。 比起哪個 LLM 比較厲害,更重要的會是什麼任務可以丟給低階模型來降本完成, 舉個大家最好理解的,【翻譯】, 我曾經覺得 GPT3.5 跟 GPT4o 的翻譯水準在大部分情況下都能滿足我的需求, 如果你使用龍蝦的情況包括幫你收集英文書與論文完整翻譯成中文版, 你大概不會希望這種任務每次都用Cluade Opus 4.6跑,那就可以來討論 Qwen 3.5 了。 恩,所以我買了第二張3090,感謝PTT。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.79.133 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1772731938.A.221.html ※ 編輯: ZMTL (1.161.79.133 臺灣), 03/06/2026 01:37:35 ※ 編輯: ZMTL (1.161.79.133 臺灣), 03/06/2026 01:37:49
newyorker54: 我今天問了一個問題 03/06 01:58
newyorker54: qwen 的工具調用是不是用open sdk,為何 opencode框架 03/06 02:02
newyorker54: 下無法用 tool calling 03/06 02:02
newyorker54: 問了會有答案,這裡就不浪費大家的時間了 03/06 02:03
newyorker54: 爆token 是必然的,如果要agent一直工作 03/06 02:04
newyorker54: 我也覺得要自建本地部署 03/06 02:04
YCL13: Qwen3.5應該是能處理圖片最小的模型了,不過我這幾天測了一 03/06 06:58
YCL13: 些覺得門檻是9B Q8,再小的有時會漏看或看錯,用來跑agent 03/06 06:58
YCL13: 會有些不放心,或許該說再小的要用在更簡單明確的目的 03/06 06:59
error405: 專業 03/06 07:15
cannedtuna: Perplexica+9B蠻好用的 不過我更喜歡ministral3-3B 03/06 07:42
cannedtuna: 9B花太多token在思考 連續用很快就到上下文極限了 03/06 07:45
cannedtuna: 而且常常思考到一半就自認為回答完畢 03/06 12:03
cannedtuna: 然後就終止了 03/06 12:03
plkoijhug: 我弄小說用3的80b a3b vram16g+30Gram 勉強可跑 03/06 12:53
Bustycat: 重測27B,拿來聊天比9B好很多,基本上就是一次就滿意 03/06 22:01
Bustycat: 我拿Mac mini M4配32GB記憶體跑,27B需時大約9B的2倍 03/06 22:02
YCL13: 27B的嚴謹度真出乎我意料的好,只是在我電腦真的慢,大概只 03/06 22:26
YCL13: 有9B的十分之一,所以我如果跑Agent是傾向用稍差的35B-A3B 03/06 22:26
YCL13: ,因為快很多,其實有在想用122B,因為速度差不多,只是備 03/06 22:26
YCL13: 用電腦就跑不動了 03/06 22:26
ZMTL: 好奇一下樓上的電腦配置,感謝 03/07 00:53
YCL13: 我是用5080+32X4,因4條RAM所以速度僅4800有時4400 03/07 09:30
YCL13: 想了想我比較基準不太公允,若35B是用Q4的話速度會超過2倍 03/07 09:32
YCL13: ,但為了品質所以常會用較高的,沒說清楚這比較會怪怪的 03/07 09:32
YCL13: 另外,如果我把2條RAM拔掉讓RAM速度恢復,那27B的速度可以 03/07 09:35
YCL13: 提升約15%,只是忍不住想跑120B等級的模型,所以就暫時維持 03/07 09:35
YCL13: 持4條RAM了 03/07 09:35
ZMTL: 咦我一直以為DRAM影響幾乎沒有,原來會影響到能不能跑120B 03/07 16:34
YCL13: 其實VRAM還是王道,如果是一般的模型,offload就是慢,但如 03/07 17:02
YCL13: 果是MOE架構,如您這篇中提到要啟動的參數其中不多,所以就 03/07 17:02
YCL13: 變成是可行的方案了,從去年8月GPT oss 120B起,中階的開源 03/07 17:03
YCL13: 模型開始用這方案,接下來Qwen3就深獲好評,今年Kiki K2.5 03/07 17:03
YCL13: 等幾個模型都是用這架構讓高階的消費級PC就可以執行的 03/07 17:03
YCL13: 一般來說,80B等級的MOE模型用16G VRAM+64G DRAM就可以順跑 03/07 17:06
YCL13: ,120B則是16G VRAM+96G DRAM就可順跑 03/07 17:06
YCL13: 再來就看上下文要多少來加RAM 03/07 17:07
YCL13: 不小心打錯名字,是kimi K2.5 03/07 17:09
ZMTL: 可惡,當初買兩條DDR4 32G才4000,前幾天我看一條一萬了 03/07 17:20
jakkx: 那時候只買一條……只能說還好當時有買一條…… 03/07 17:21
kimwang: 我當初也是買兩條32 3千多 現在同樣的一組一萬四... 03/07 17:27
kimwang: 等到想插滿的時候就開始漲了 03/07 17:27