[閒聊] Qwen3.5 35B gguf 在 3060 12GB上試用

作者marklai (心宿二)

看板AI_Art

標題[閒聊] Qwen3.5 35B gguf 在 3060 12GB上試用

時間Tue Mar 10 18:03:09 2026

Qwen3.5 35B gguf 在 3060 12GB上試用平常我都是用comfyui ollama節點，使用gemma3 12b居多，看大家都在用Qwen3.5，那也來試用看看，選了有MOE的Qwen3.5 35B-A3B q4 K_M gguf(約20GB)，結果在3060 12GB跑得還算順，跑這些花了44秒，不過我這台電腦有3張GPU(3090/5060ti/3060)，也許是ollama會自動分散模型到其他vram上，大家可以試試。不過以內容來說，覺得gemma3整理的比較好。 https://i.meee.com.tw/gYc4LVE.png

---- Sent from BePTT on my Xiaomi 24117RN76O -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.231.8.41 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1773136991.A.187.html

推 newyorker54: 這樣VRAM不只12g 03/10 20:47

→ Supasizeit: 35B應該是靠ram在跑 03/10 21:49

推 newyorker54: ctrl+alt+esc看看用了多少vram或dram在跑 03/10 22:25

推 YCL13: 棄ollama很久了，在想會不會是有用到llama的fit功能呀？ 03/11 07:30

→ YCL13: 最近發現llama的fit很強大，比我手動調參數的效果還好 03/11 07:31

→ YCL13: 特別是對於MOE架構的模型，根本是神搭配呀 03/11 07:31

推 newyorker54: llama真的好用，vllm雖然效率高,但是在windows wsl中 03/11 09:25

→ newyorker54: 因為NCCL支援不完整，在多卡平行運算一直崩潰 03/11 09:25

→ marklai: 下次再跑GPT oss 120b看看 03/11 11:31

→ marklai: 用ollama習慣了，有空再換裝llama.cpp，有一點懶 03/11 11:52

推 YCL13: GPT oss 120B用上了MXFP4，這方法滿特別的，也造成了各量化 03/11 22:58

→ YCL13: 模型的大小滿接近的，而您的GPU是跨不同世代，並沒有全支援 03/11 22:59

→ YCL13: FP4，所以選擇時可能要考慮一下 03/11 22:59