
推 newyorker54: 這樣VRAM不只12g 03/10 20:47
→ Supasizeit: 35B應該是靠ram在跑 03/10 21:49
推 newyorker54: ctrl+alt+esc看看用了多少vram或dram在跑 03/10 22:25
推 YCL13: 棄ollama很久了,在想會不會是有用到llama的fit功能呀? 03/11 07:30
→ YCL13: 最近發現llama的fit很強大,比我手動調參數的效果還好 03/11 07:31
→ YCL13: 特別是對於MOE架構的模型,根本是神搭配呀 03/11 07:31
推 newyorker54: llama真的好用,vllm雖然效率高,但是在windows wsl中 03/11 09:25
→ newyorker54: 因為NCCL支援不完整,在多卡平行運算一直崩潰 03/11 09:25
→ marklai: 下次再跑GPT oss 120b看看 03/11 11:31
→ marklai: 用ollama習慣了,有空再換裝llama.cpp,有一點懶 03/11 11:52
推 YCL13: GPT oss 120B用上了MXFP4,這方法滿特別的,也造成了各量化 03/11 22:58
→ YCL13: 模型的大小滿接近的,而您的GPU是跨不同世代,並沒有全支援 03/11 22:59
→ YCL13: FP4,所以選擇時可能要考慮一下 03/11 22:59