[StaD] 已知用火，但clip很重要

作者Supasizeit (Shitpost King)

看板AI_Art

標題[StaD] 已知用火，但clip很重要

時間Thu Nov 6 22:19:05 2025

說起來真是丟臉玩了這麼久SDXL 以為一個clip打天下最近因為不知道comfy改版還是怎樣很容易生黑圖才發現pony 跟illustrious Clip不見得通用下了一些clip-l clip-g 還有long clip 根本就新大陸如果想要精進的可以google一下 Waifu illustrious適合IL Powerpuffmix 適合pony Pony有人特別訓練long clip Seaart的Long clip-l 我試了是都不行 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.204.195.174 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1762438747.A.077.html

推 a159371153: Flux、wan、qwen……等模型都有要求用特定的clip不是 11/07 15:29

→ a159371153: ？ 11/07 15:29

推 laeva75: pony跟illustrious不是有內含clip嗎？ 11/07 22:05

→ Supasizeit: 是這樣沒錯但不是這樣外掛clip 跟換成 long clip to 11/07 22:22

→ Supasizeit: ken size 差很多 11/07 22:22

→ Supasizeit: SDXL的prompt adherence 跟qwen那些不能比能擠多少 11/07 22:24

→ Supasizeit: 是多少畢竟瑟瑟還是要靠sdxl 11/07 22:24

推 iman00b: 1F，他說的類似fine tune clip，與flux/wan/qwen不同 11/08 01:29

→ iman00b: 此外，flux是dual text encoder，可同時吃 clip/t5。 11/08 01:30

→ iman00b: t5就是用自然語言，wan&qwen只用encoder，qwen那個很強， 11/08 01:31

→ iman00b: wan/qwen因為是中國人開發的，所以吃中文很好用， 11/08 01:32

→ iman00b: 而這些東西都有fine tune版本，但我換過其實沒太大差別， 11/08 01:33

→ iman00b: qwen那個用自家的LLM-VL，v3非常的猛，想拿來換掉v2.5試 11/08 01:34

→ iman00b: 不過最近沒時間弄，你有興趣可看看8B那版能不能換 2.5 7B 11/08 01:35

→ Supasizeit: Qwen3 4B的LLM就很猛了 11/08 01:57

→ Supasizeit: VL我沒試過改天來試試 11/08 01:59

推 iman00b: VL主要是能分析影片，comfy有node，但我要說的不是這個， 11/08 04:01

→ iman00b: 我是說 Qwen-Image/Edit 用的是 qwen2.5vl-7b， 11/08 04:02

→ iman00b: 不知道能不能把這個換V3新版8B那個~ 11/08 04:03

→ iman00b: 如果你想反推影片與提示詞可以試試 V3 VL 那版， 11/08 04:03

→ iman00b: google 一下應該有 youtube 影片可以參考。 11/08 04:04

→ iman00b: 此外 clip 我之前用過一個還不錯，你看看能不能用： 11/08 04:06

→ iman00b: https://huggingface.co/zer0int/CLIP-GmP-ViT-L-14 11/08 04:06

→ iman00b: 我找fine tune的方法很簡單，你看這右邊不是有base model 11/08 04:12

→ iman00b: 你看下方會有fine tune (有的還會有量化 11/08 04:13

→ iman00b: 點進去找下載數與讚數比較多的玩玩看。 11/08 04:14

推 a159371153: Qwen3vl之前試不能瑟瑟就沒用了。 11/08 05:26

→ a159371153: 他有個nsfw think，但那個只是分析圖片，並不會幫我寫 11/08 05:29

→ a159371153: nsfw的提示詞，不知道能做什麼。 11/08 05:29

→ a159371153: 然後，clip的事，自從flux問世後，我就沒碰sdxl了，然 11/08 05:32

→ a159371153: 後，ill問世後，就沒碰pony了，所以，沒遇過樓主遇到 11/08 05:32

→ a159371153: 的問題，自然沒有sdxl的clip方面的問題。再加上現在 11/08 05:32

→ a159371153: 用的模型，全都有配套的clip，所以clip的問題還真沒遇 11/08 05:32

→ a159371153: 過。 11/08 05:32

→ a159371153: 目前我nsfw都是用ill畫，然後用qwen 2509轉換成真實 11/08 05:34

→ a159371153: 照片。 11/08 05:34

→ Supasizeit: Zeroint 在flux 比較出名他還弄了encoderless flux 11/08 08:39

→ Supasizeit: 他那個clip 我用了會生黑圖 11/08 08:39

推 iman00b: 試過 abliterated 版本嗎？ 11/08 08:43

→ iman00b: https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct 11/08 08:44

→ iman00b: 右邊那裡選 finetuned，然後搜尋 abliterate， 11/08 08:45

→ iman00b: 這是從 transformer model 那裡直接去限制的，但是... 11/08 08:45

→ iman00b: 但是不一定有效，可以試試看~反正試試又不用錢。 11/08 08:46

推 iman00b: zer0int有好幾個版本，應該也有支援SD的，但主要是Flux 11/08 08:51

→ Supasizeit: Qwen3 VL滿通用的丟pdf txt 跟圖都可以讀而且沒有 11/08 13:10

→ Supasizeit: 太多自我審查 11/08 13:10

→ Supasizeit: 不過好像不能直接替換encoder吧 11/08 13:11

→ UnWf: 有什麼推薦的clip給illustrious用嗎 c站抓了幾個來試不是雜 11/08 19:19

→ UnWf: 訊就是動作可能有一點差異但品質好像沒什麼太大的改變？ 11/08 19:19

→ Supasizeit: 你是用什麼illustrious 11/08 22:22

→ Supasizeit: 差的不是品質是提示詞的控制度 11/08 22:23

→ Supasizeit: 品質要靠sampler upscale 等等 11/08 22:23

推 iman00b: upscale有試過seedvr、flashvsr嗎？flashvsr挺強的， 11/09 07:18

→ iman00b: 就是compile for win 的 block-sparse 輪子麻煩點。 11/09 07:19

→ Supasizeit: 咦圖片不能flash吧 11/09 09:30

推 iman00b: flashvsr為啥不能圖片？只是因為影片功能比較強而已。 11/09 09:33

→ iman00b: flashvsr圖片聽說是沒seedvr強，但我還沒試seedvr不敢說 11/09 09:34

→ iman00b: 有的模型吹很大，做影片的也會唬爛，不自己試都不準。 11/09 09:35

→ Supasizeit: 測下來flash比ultimate sd慢，效果好一些，主要是比 11/09 11:59

→ Supasizeit: 較穩定不用看模型抓denoise level，不過我通常是late 11/09 11:59

→ Supasizeit: nt upscale resample 11/09 11:59

→ UnWf: 沒想過提示詞的控制度該怎麼測簡單跑一下模型是WAI-illus 11/09 15:08

→ UnWf: trious v14 提示詞大概是 tag 單腳站立、雙手叉腰加上黃 11/09 15:08

→ UnWf: 昏、小巷、野餐籃，蔬菜，法國麵包在地板上混用不同的clip 11/09 15:08

→ UnWf: -l和clip-g 這樣子比較感覺用重新訓練過的clip 畫面好像沒 11/09 15:08

→ UnWf: 這麼擁擠也比較符合提示詞？ 11/09 15:08

→ UnWf: https://i.meee.com.tw/kVzybzb.jpg 11/09 15:09

→ Supasizeit: https://bit.ly/4otbgUt 這裡 11/09 15:40

→ Supasizeit: 你換waifu 的看看 11/09 15:41

→ Supasizeit: 基本上應該比較能挖出本來訓練的樣子 11/09 15:42

→ Supasizeit: 我是因為要生斜背乳換了clip才穩定 11/09 15:48

→ Supasizeit: Upscale 這題從約1.5M 4x 測試下來 SuperScaler跟ul 11/09 16:16

→ Supasizeit: timate 品質好但是抹得很厲害會掉細節 Flash感覺上是 11/09 16:16

→ Supasizeit: 用Wan去resample 但五官沒那麼細 11/09 16:16

→ Supasizeit: 不過背景衣服有增加細節 11/09 16:18

→ Supasizeit: 結論是要混用？ 11/09 16:18

推 iman00b: 你如果是單張圖，可能resample會比較好，反正能用都用啊 11/09 22:42

推 iman00b: 有網友推藍色多瑙盒影片，他的影片都不錯可以參考看看。 11/09 22:46

→ Supasizeit: 還是都要試跟checkpoint還有畫風都有關而且全身的 11/10 00:10

→ Supasizeit: 話還是得開detailer修臉 11/10 00:10

→ Supasizeit: SeedVR不錯很快而且我還沒裝flash attention 11/10 15:06

→ UnWf: 看了網址這感覺好像是想把各家模型裡的clip抽出來做成gguf 11/10 17:14

→ UnWf: 省記憶體不懂模型訓練問gpt說一般訓練新模型不會把底模的 11/10 17:14

→ UnWf: clip一起重練但是稍微試了一下同系不同模型的clip畫面又有 11/10 17:14

→ UnWf: 一點改變？總之有幫助是真的只是要花點時間測試不同clip 11/10 17:14

→ Supasizeit: 我目前Illustrious 還找不到long clip可以用所以pon 11/10 18:15

→ Supasizeit: y比較有幫助 11/10 18:15

→ Supasizeit: 我找到一個illustriousXL fp32 clip 感覺還不錯 11/10 21:13

推 iman00b: 黎黎原上咩剛丟了一個講flashvsr的影片，我覺得非常好， 11/10 23:55

→ iman00b: 我用的也是跟她展示的同一個node，但是她玩德比我深入。 11/10 23:55

→ iman00b: https://www.youtube.com/watch?v=uiNQ5woL1Jo 11/10 23:56

→ iman00b: 參考看看，我當初也是比對了四個版本用了最接近官版那個 11/10 23:57

→ iman00b: 之前很多影片都是直接拿KJ大神wanwrapper的半殘版。 11/10 23:58

→ iman00b: 咩咩是第一個把滿血版講最好的。 11/10 23:58

→ Supasizeit: 單張圖sdpa 跟sage應該差異沒多少暫時先這樣吧 11/11 15:07

推 iman00b: 單圖用seedvr + resample啦，flashvsr只有影片強。 11/11 15:43