看板 AI_Art 關於我們 聯絡資訊
推 kimwang: 看到現在我只覺得是你相信並堅持負空間一定存在 所以找了 03/01 17:44 → kimwang: 一堆東西來附和和定義你希望存在的負空間 03/01 17:44 → kimwang: 這種話題可以吵了一個月還沒結束也是很厲害 03/01 17:45 → kimwang: 而且像你說的狗跟鬼 也是有可能生出一隻狗+一隻鬼的 03/01 17:49 → kimwang: 我自己就有用SD系產圖明明已經下了1girl:1.3 結果產出來 03/01 17:49 → kimwang: 的圖還是冒出兩個人 然後把我給的其他詞分散到兩人身上 03/01 17:50 → kimwang: 說穿了就只是產圖會盡量滿足給的關鍵詞而已 03/01 17:51 → kimwang: 不想看 毫無興趣 你愛堅持己見是你的事 我也只是出來表達 03/01 17:52 → kimwang: 對這話題厭煩而已 你想繼續的話我也沒全力阻止你 03/01 17:52 → kimwang: *權 03/01 17:52 推 kimwang: 我不否認一開始看到這議題是滿有趣的 但久了就只覺得 03/01 17:56 → kimwang: 你只是在強迫大家接受你的定義 而不是每個人可以有自己的 03/01 17:56 → kimwang: 看法 才會吵了一個月都沒結束 03/01 17:57 來來來,直接數學推導啦,證明這種現象的確客觀存在,不管你要叫他是負空或是什 麼都好,還需要否認什麼? 負空間形成定理 Negative Space Formation Theorem ===================================== 一、定理陳述 Theorem Statement 設 x ∈ R^n 為符號狀態向量, c 為條件向量(由 CLIP encoder 產生), p(x | c) 為條件機率密度函數。 若條件向量 c 所對應之訓練樣本,在符號空間中不存在穩定機率密度極大值, 則存在一區域 N ⊂ R^n 使得在此區域中同時滿足 p(x | c) 0 ▽x log p(x | c) 0 此區域定義為 N = 負空間 Negative Space 且在此區域中 diffusion 動力學無法收斂至穩定吸引子。 ================================================================== 二、證明 Proof Diffusion 模型的逆向生成過程為 x_(t) = x_t + ▽x log p(x_t | c) 系統收斂至穩定狀態的必要條件為 存在 x* 使得 ▽x log p(x* | c) ≠ 0 並形成吸引子結構 lim t → ∞ x_t = x* 然而 若訓練資料中不存在對應條件 c 的樣本密集區域 則 p(x | c) 在整個空間中接近均勻分布或接近零 因此 ▽x log p(x | c) 0 代入生成方程式 x_(t) x_t 表示 系統失去收斂動力 因此 生成過程形成非收斂區域 N 證畢。 ========================================================= 三、推論 Corollary 負空間可等價表示為 符號墒梯度消失區域 即 ▽x S(x | c) 0 且 S(x | c) 為高值 因為 ▽x S(x) = ▽x log p(x) ====================================================== 四、直觀解釋 Intuitive Interpretation Stable Diffusion 的生成本質為 在高維符號空間中尋找穩定機率密度區域。 例如 dog 存在大量穩定區域 ghost 存在穩定區域 但 dog + ghost 若訓練資料中幾乎不存在 則 空間中不存在穩定吸引子 因此 生成過程失去收斂方向 並在空間中漂移 此區域即為 負空間 =================================================== 五、幾何解釋 Geometric Interpretation 正常情況 空間中存在吸引子 所有軌跡收斂至穩定點 負空間 不存在吸引子 不存在穩定收斂點 系統呈現漂移現象 ================================================= 六、diffusion 與符號墒的等價描述 diffusion score 定義為 score = ▽S 因此 負空間條件等價於 ▽S 0 且 S 為高值 即 高符號墒 但不存在收斂梯度 ======================================== 七、對生成影像的直接意義 生成成功條件為 存在 x* 使得 ▽x S(x* | c) = 0 且為局部極小值 負空間條件為 不存在穩定極小值 因此 生成過程無法收斂 ============================================== 八、對符號墒創作理論的關鍵對應 負空間不是 沒有資料的區域 而是 不存在穩定符號吸引子的區域 剪接的作用為 重新排列符號結構 創造新的吸引子 降低符號墒 使影像重新收斂 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.2.206 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1772359768.A.D2C.html
kimwang: 沒事沒事 我想說的上面都說完了 你可以繼續你的表演了 03/01 18:11
peterturtle: 你第一區就已經很神秘了,不存在穩定的極大值的可能 03/01 18:13
peterturtle: 性有多大? 03/01 18:13
peterturtle: 而且你寫出來的公式本質上與N維的牛頓法就差一個微分 03/01 18:15
peterturtle: 而已啊 03/01 18:15
混屯理論沒有處理prompt對應空間好嗎 而混屯理論也不是在處理類神經網路的高維空間提示詞對應問題 ==================================== 牛頓法與混沌理論處理的是 已知函數 f(x) 或 已知動力系統 x_(t+1) = f(x_t) 它們假設一件事: 系統的結構本身已經存在。 也就是說 landscape 是既定的。 你只是在這個 landscape 上移動。 ===================================== 但 diffusion 處理的是完全不同的問題: p(x | c) 是條件機率密度函數, 而 c 是 prompt 經過 CLIP encoder 後得到的語意條件向量。 這代表: prompt 會改變整個 density landscape 本身。 不是在固定 landscape 上移動, 而是 prompt 決定 landscape 是否存在 attractor。 ===================================== 公式雖然看起來很像,都有遞迴,但意義完全不同好嗎 差就在於p(x | c) 的對應關係 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:23:50 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:26:43
peterturtle: 說到底啊,擴散模型本質上就是假設每個特徵都指向在 03/01 18:26
peterturtle: 某個空間中的一組特徵向量,並相信大量的訓練樣本會 03/01 18:26
peterturtle: 平均掉其他部分向量。你如果真的希望沒有同時成立的 03/01 18:26
peterturtle: 極值在,代表兩個特徵在向量上必須幾乎完全平行,除 03/01 18:26
peterturtle: 了這其實不是很容易之外、一般收斂也會「擇一掉入」 03/01 18:26
peterturtle: ,因為擴散模型只管你是不是局域解、並不管你這個解 03/01 18:26
peterturtle: 有沒有包含所有的關鍵字(這也是生成時有可能會掉關鍵 03/01 18:27
peterturtle: 字的原因)。回到前面的第二個假設,其實要徹底平均掉 03/01 18:27
peterturtle: 其他解很難(拜統計的誤差所賜),所以如果梯度不夠那 03/01 18:27
peterturtle: 還是有機會掉到這些解去的,所以你看到的很可能就只 03/01 18:27
peterturtle: 是這些副解。 03/01 18:27
peterturtle: 混沌理論參與的是後一步,你 prompt 就是決定那條曲 03/01 18:30
peterturtle: 線要長怎樣,公式會變那是迭代前會變,開始迭代時你 03/01 18:30
peterturtle: 的公式就不會變了啊。 03/01 18:30
這不是副解的問題,而是更根本的問題: 訓練資料中根本不存在對應的 p(x | c) Diffusion 只是被迫在不存在真實密度結構的條件下進行運算。 混沌理論處理的是這種形式: x_(t+1) = f(x_t) 其核心是: 系統的動力結構 f(x) 是已存在的, 只是因為遞迴, 導致初始條件的微小差異被放大, 產生所謂的蝴蝶效應。 換句話說, 結構存在, attractor 存在, 只是軌道不可預測。 但 diffusion 的問題完全不同。 diffusion 的生成依賴的是: p(x | c) 也就是 條件語意 c 對應的機率密度分布。 這個 density structure 必須來自訓練資料。 如果訓練資料中不存在對應語意 cluster, 則嚴格來說: p(x | c) 在統計上並沒有真實的 density support。 此時 diffusion 仍然必須計算: ▽ log p(x | c) 但這個梯度不是來自真實存在的密度吸引子, 而是來自模型參數的外插 extrapolation。 也就是說, SD 並不是在已存在的 attractor 上收斂, 而是在不存在對應密度結構的空間中, 被迫根據已學到的近似結構進行推算。 因此這不是: 初始條件經由遞迴產生的放大效應, 而是: 訓練資料中一開始就不存在對應關係, 模型仍然被迫生成結果。 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:33:59
peterturtle: 我上面的解釋不是說了潛在對應意料之外圖片的關係的 03/01 18:33
peterturtle: 不可避免性了 03/01 18:33
所以說那根本不是副解 而是訓練資料集根本就不存在的對應關係,SD強迫運算出來的啊 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:36:41
peterturtle: 擴散模型不懂什麼是強迫,它就是個數學公式,會出現 03/01 18:35
peterturtle: 一張你還能辨認出來的圖代表那邊肯定有一個解在哪裡 03/01 18:35
peterturtle: ,只是這個解不一定是你要的 03/01 18:35
kimwang: 人家是來教育大家而不是來交流討論的 個人建議冷處理或者 03/01 18:36
kimwang: 敷衍贊同結束這沒結果的不毛之爭 03/01 18:37
peterturtle: 就說了「必不存在解」這句話你下的太武斷了,只是因 03/01 18:39
peterturtle: 為你不知道有那個解存在而已,因為平時都會落入你要 03/01 18:39
peterturtle: 求的解上。兩個很少同時出現的詞,只是失去了「有一 03/01 18:39
peterturtle: 邊但沒另一邊」所以很難做到兩個特徵向量垂直而已 03/01 18:39
peterturtle: 數學是不能靠「我覺得」就能作為推論基礎的 03/01 18:41
你硬要把稱為解我沒意見 但我要強調的是這根本不在原始訓練集裡的CLIP集合裡面 也就是說原始訓練資料可能有狗,可能有鬼 但是就是沒有同時符合狗+鬼標示的圖片 而是SD自己運算出來的 並不代表SD真的理解什麼叫狗+鬼 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:45:02
peterturtle: 統計上不可控的系統誤差隨時可能炸了你看似完美的推 03/01 18:42
peterturtle: 論 03/01 18:42
peterturtle: 你整個推論過程完全基於「不存在解」這個假設上,但 03/01 18:45
peterturtle: 你沒有去證明這個假設成立,你只是覺得它成立。讓我 03/01 18:45
peterturtle: 告訴你一個好詞吧,那個詞叫 overfitting 03/01 18:45
peterturtle: 不是耶,你講極大值講半天,我問你極值微分後是不是 03/01 18:46
peterturtle: 代表梯度為零,那這是不是相當於解? 03/01 18:46
我講的是訓練資料分佈裡 p(x|c)=0,也就是資料支持集裡根本沒有這種樣本 。 你講的是優化過程中梯度變成零,那只是演算法停住,不代表分佈裡真的存在解。 演算法停住不等於資料分佈存在。 另外 overfitting 是模型過度貼合已知資料,但這裡是資料支持集本來就沒有這個區域 ,這是分佈之外的問題,不是 overfitting。 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 18:55:41
peterturtle: SD 當然不知道什麼是狗+鬼,但它知道什麼可能是狗、 03/01 18:55
peterturtle: 什麼可能是鬼,他的目的就只是想辦法從一組隨機數沿 03/01 18:55
peterturtle: 著梯度收斂到某個解、好吧你說極值、上,反正最終它 03/01 18:55
peterturtle: 在地圖上迷路了並沿著梯度掉到了一個 local maximum 03/01 18:55
peterturtle: 裡面,而這個 local maximum 打從你下了 prompt 那一 03/01 18:55
peterturtle: 刻起就存在,只是你平時可能不會看到它,可能代表你 03/01 18:55
peterturtle: 運氣不好(就像平時畫圖缺 prompt 這樣,你也不是每次 03/01 18:55
peterturtle: 都能畫出 prompt 一個不少的圖),或是說這僅代表這組 03/01 18:55
peterturtle: prompt 生出來的場正確收斂區域沒想像中大這樣。 03/01 18:55
peterturtle: 我大概知道你卡在哪了,你覺得混沌理論只有一條公式 03/01 18:59
peterturtle: 、但擴散模型不同的prompt對應不同的場對吧?但實際 03/01 18:59
peterturtle: 上碎形的生成公式也是數學家選的啊,你該不會以為多 03/01 18:59
peterturtle: 次多項式的 factor 永遠就只有一組解吧? 03/01 18:59
peterturtle: 你的 prompt 本質上是透過向量去把那條公式組出來而 03/01 19:00
peterturtle: 已 03/01 19:00
我覺得你是不是搞錯層級了。 我說的是訓練資料分佈裡根本沒有這種樣本,也就是資料支持集外的東西。Stable Diffusion硬要在那個區域生出影像,就會變成四不像,因為它對應不到任何人類已認知 、也就是訓練資料裡存在的圖像結構。 你講的梯度變成零,是演算法優化過程裡的一個暫時狀態,跟訓練資料分佈本身是不是存 在那個樣本是兩回事。演算法停住不代表資料裡存在那個東西,更不代表那叫解。 至於你說 overfitting 也不對。overfitting 是模型太貼合訓練資料,結果只會重複舊 模板。但我現在講的是訓練資料本來就沒有那個區域,這是分佈之外的問題,跟 overfitting 根本扯不上邊。 ※ 編輯: treasurehill (118.233.2.206 臺灣), 03/01/2026 19:04:20
peterturtle: 先回答你第一個問題,那代表我前面講「擴散模型本質 03/01 19:06
peterturtle: 上是假設每個特徵……」那段你沒有看 03/01 19:06
peterturtle: 我們假設某個向量夠大代表有狗、另一個向量大代表有 03/01 19:12
peterturtle: 鬼,但那不代表我們每次收斂都能成功讓每個 prompt 03/01 19:12
peterturtle: 的內積結果都那麼大,所以不是每次收斂都能成功的。 03/01 19:12
peterturtle: 反過來說,只要能夠收斂讓系統出不去,沒這兩樣也沒 03/01 19:12
peterturtle: 關係,那代表這只是機率問題:因為你只要能想像出那 03/01 19:12
peterturtle: 個組合結果就代表其實同時存在兩者的解存在,只是你 03/01 19:12
peterturtle: 這次沒能掉進去而已。 03/01 19:12
peterturtle: 而之所有有這個現象是因為擴散模型實質自由度遠超所 03/01 19:16
peterturtle: 有 prompt 帶有的信息總數,所以我們得出來的公式在 03/01 19:16
peterturtle: 系統偏差下很可能會有一些副解(非主要極值)存在而不 03/01 19:16
peterturtle: 是一個蘿蔔一個坑,而這些副解就是讓你掉進去奇怪的 03/01 19:16
peterturtle: 地方的梯度場來源。 03/01 19:16
peterturtle: 當然還有幾種可能:比如你寫出來的東西你自己也不知 03/01 19:32
peterturtle: 道是什麼鬼,但我相信你討論的不是這個;另一種是其 03/01 19:32
peterturtle: 實你想像中的吸子不是吸子而只是路徑途中,因為我們 03/01 19:32
peterturtle: 不知道擴散模型的每個參數分別代表什麼洨所以這也是 03/01 19:32
peterturtle: 有可能的。反正不會是一些聽上去玄乎玄乎的說法就是 03/01 19:33
peterturtle: 了 03/01 19:33