精華區beta C_Chat 關於我們 聯絡資訊
NovelAI最近的tech blog正好有聊到這議題 主要是在clip module上面 首先看這張示意圖 https://i.imgur.com/szUMmnr.png 主流的(Dall-e, imagen, stable diffusion)架構由兩塊組成 訓練語言語意轉化為圖片語意的CLIP 和訓練生成圖片能力的U-NET Stable diffusion和google的imagen在CLIP上的差別是 Stable diffusion使用CLIP的最後一層隱藏層狀態 而Imagen則是使用倒數第二層 NovelAI實驗後發現Stable diffusion可在interpret倒數第二層狀態下 採用最後一層的norm 進而在犧牲一點準確度的情況下 改善概念的拆分 舉例來說 正確的上色 以下圖來說 Hatsune Miku, Red Dress https://i.imgur.com/NnHdeU0.png 若用原本的最終層狀態 會使紅色從衣服大量的溢出到頭髮和瞳色上 而使用新方案則能大幅改善這點 當然這充其量只是改善方案 不能完全解決 這目前算是diffusion的通病 還沒有完美的方案 現在不僅NovelAI自身下一代模型研究ing Diffusion的爆熱也已經在NeurIPS 2022展現出來 聽朋友說只要是diffusion的topic都有超高accept率XD 也有很多新的方案和技術快速誕生 或許可以期待一下 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.163.84.235 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1665558977.A.80F.html
doramon888: 漂亮~ 10/12 15:16
cybermeow: 角色還是拆不出來 配AND也拆不出來 10/12 15:17
cybermeow: 然後 12/2 score-based model workshop 啊 www 10/12 15:18
tchaikov1812: 原來如此,我明白了 10/12 15:20
diabolica: 本猴子也懂 10/12 15:21
guogu: 這邊難道只剩我還是草履蟲了嗎? 10/12 15:26
medama: 推 10/12 15:27
a547808588: 可惜當初沒轉CS,根本不知道你在共三小 10/12 15:28
acininder: 單以diffusion來說 比起CS的 應該數學系的更熟 10/12 15:31
cybermeow: 物理系笑而不語 (X 10/12 15:31
arrenwu: 數學系不太學這個的吧 EE裡面DSP的可能還比較有機會 10/12 15:32
acininder: 這篇講的的確是比較實務面modeltuning 跟數學沒啥關係 10/12 15:33
arrenwu: 我認識的EE裡面的Theorist大多對DL滿感冒的 10/12 15:33
acininder: 但diffusion算近年來最數學的model了 10/12 15:33
acininder: 從Energy based model到Langevin Equation 10/12 15:35
a547808588: 數學系也沒有啦,他們或許能看懂,但是沒有接觸過 10/12 15:36
acininder: evidence lower bound 和 Markov chain 推導 10/12 15:36
arrenwu: 這個比較接近 應用數學/統計 的分支 10/12 15:37
acininder: https://arxiv.org/pdf/2208.11970.pdf 10/12 15:37
acininder: google發的22頁推導paper 10/12 15:37
acininder: 近年蠻多數學系轉CS碩的吧 這種的都蠻猛ㄉ 基礎扎實 10/12 15:39
a547808588: 不是所有系都轉CS碩嗎 10/12 15:40
acininder: 嘿嘿 10/12 15:42
acininder: 也不一定要轉 教授突然就開始搞AI了>< 10/12 15:43
arrenwu: 這跟錢有關係 10/12 15:44
arrenwu: 這也加重了Theorist們的不爽 10/12 15:44
cybermeow: 我不得不說我真的很喜歡diffusion model 已經考慮跳槽 10/12 15:44
cybermeow: 了 不過現在太紅競爭很嚴重 而且不知道能做多久 10/12 15:45
acininder: 好一陣子內都會是diffusion稱霸吧 原理推導漂亮一回事 10/12 15:45
cybermeow: 到頭來還是要把基礎打好不然天知道下個模型又用了什麼 10/12 15:45
acininder: 重點是效果真的好 在能做的領域品質全面超越GANs 10/12 15:46
cybermeow: 真的我今天在訓練gan 然後這東西果然不能用 10/12 15:46
arrenwu: 是啊 重點是效果好XD 10/12 15:46
acininder: 而且又好train 不像gans你還要顧兩個model 一不小心 10/12 15:46
acininder: 又collapse 10/12 15:46
cybermeow: 靠gan概念明明很漂亮就是訓練不起來 我現在要重想演算 10/12 15:47
cybermeow: 法 頭痛 diffusion訓練上限制還是比較大 10/12 15:47
acininder: 但缺點就是算力消耗大 訓練時間久 10/12 15:47
cybermeow: 我今天大概訓練十次collapse九次 崩潰 10/12 15:47
acininder: 不過最新一批paper開始應該一堆改善效率的出來了 10/12 15:47
cybermeow: 就真的很競爭 現在入場 10/12 15:48
acininder: 教授們很爽阿 transformer把舊題目拉出來生完一輪後 10/12 15:48
cybermeow: 太晚了 然後老實講那些數學我也是半信半疑啦 10/12 15:49
acininder: diffusion又可以再生一輪== 10/12 15:49
arrenwu: 我看過的DL相關教學,數學model的推倒比較像是靈感來原 10/12 15:49
cybermeow: 天知道哪些深度學習的數學是真的能解釋背後現象的 10/12 15:49
cybermeow: 還不是bound推一推發paper 對就是我lol 10/12 15:50
arrenwu: performance guarantee 相關的我還真沒看過 10/12 15:50
acininder: 這波的diffusion原理2015就出來了 10/12 15:51
acininder: 2020突然就work了主要還是因為U-net的inductive bias 10/12 15:51
arrenwu: cybermeow有po過那篇2015的paper啊 10/12 15:51
acininder: 個人感覺 10/12 15:51
cybermeow: 只能說18 19 那批人真的有眼光 10/12 15:52
cybermeow: 水paper的跟真正把方法做出來的還是不一樣 10/12 15:52
teddy12114: 可以用單細胞生物也能聽的懂的說法解釋這篇嗎QQ 10/12 16:06
acininder: 加了醬汁之後 龍蝦的味道就被凸顯出來了 10/12 16:10
DH3020: 所以我我說那個醬汁呢?還要多久才能做出來 10/12 16:12
acininder: 那個醬汁,再給我一分鐘我一定能完成的 10/12 16:18
qxpbyd: 這應該是leak才能得知的訊息吧? Automatic1111三天前有改 10/12 17:56
qxpbyd: 我才知道 4ch那一群很瘋狂地要reproduce novelAI 10/12 17:57
qxpbyd: 沒事 你第一句就說了 補連結 https://is.gd/UgmV2c 10/12 18:10