作者peter308 (pete)
看板DataScience
標題Re: [討論] 分團問題!?
時間Thu Feb 18 12:15:02 2021
※ 引述《peter308 (pete)》之銘言:
: 在處理龐大的數據的時候
: 經常會透過分團(Clique, cluster analysis) 來將數據做分類
: 我最近有觀察到這種分團問題都會附帶一個關聯矩陣
: 這個矩陣的長相大致上如下:
: https://i.imgur.com/IgE8Y75.jpg
: 因為我之前修群論的時候
: 對於這樣的圖形常常接觸
: 像有一本量子力學的教科書的封面就是這類型的矩陣
: https://i.imgur.com/I9Aa6cU.jpg
: 通常有這樣的圖形出現就表示系統有某種對稱性!
: 不知道各位在數據科學領域(非我的專長)
: 可有聽過有什麼樣的對稱性的狀況或是討論嗎??
: 感謝!!
想再聊聊這個話題
我覺得分群或是分團問題,本身就是一個大哉問。
通常這類問題 我們都會把哈密頓矩陣在一個比較直觀容易處理的基底ψs上做展開。
但因為這些ψs所形成的矩陣比較稀疏或是矩陣元素散布各處
我們通常會做一件事 那就是
矩陣對角化或是
區塊矩陣對角化
這件事情的幾何上意義,就是再做一個座標轉換 (similiarity transformation)
將原本的座標系統轉到一個新的座標系統上
讓矩陣元素可以變成集中在區塊的對角線上,而非區塊對角線上的元素越小越好。
這件事情其實在數據科學也常常看見
像是 PCA, k-means,.....等等
本質上 和 做block diagonization是非常類似的
然而這件事情,其實可以從一另一個完全不同方向來著手。
也就是從觀測系統的對稱性 S 上直接下手。
================================================================
比方說 化學的分子點群就是一個很棒的例子
如果用一個比較簡單的例子 水分子 H20 ( 分子點群為C2v)
那麼水分子的哈密頓矩陣就可以被區塊對角化
而區塊對角化後的矩陣所對應的座標系統我們給一個名稱叫做"不可化約的"
這個區塊對角化後的新的矩陣上的基底ψ'
會對應C2v的徵值表所能列出的所有不可化約表象, e.g. A1,A2,B1,B2
http://symmetry.jacobs-university.de/cgi-bin/group.cgi?group=402&option=4
================================================================
回到數據科學上
針對某個數據資料集
我們能否在還沒做分群前,就先知道數據資料集的對稱性Ω為何?
類似前面舉的那個水分子的分子對稱性'C2v'一樣
事實上,我個人覺得找數據資料集的整體對稱性Ω這件事情
已經有人再做了
如果對稱性Ω能事先知道
那麼理論上我們應該可以加速分群這件事
因為,在分群前我們其實已經事先知道答案了。
那就是最後的區塊對角化的矩陣
一定會在Ω的不可化約表像基底所形成的線性空間上
這些不可化約表象上的基底,會和這個資料集所具備的整體對稱性Ω有某些關係存在
如果能知道Ω為何?以及其對應的徵值表和不可化約表象。
那在對於資料及分群這件事情上
應該會事半功倍 進而設計出更有快有效率的新的分群演算法!
再找數據資料集的對稱性Ω上所花的時間,可能就能做完分群了。
(可能是這個原因 做數據科學的人比較少在談Ω)
儘管如此,我還是覺得分析數據資料集的整體對稱性的這個課題
在學術研究甚至是應用層面上都是非常有意義的!
P.S. 似乎目前有看到一些人是用拓樸的方式來描述數據的結構或是對稱性
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.117.32.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1613621707.A.C0C.html
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:23:57
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:24:11
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:27:27
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:29:03
※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:30:20
推 ddavid: 等等,在你說的理想之前,先要考慮一件事情:所謂的分群( 02/18 17:11
推 ddavid: Clustering)跟分類(Classification)有關鍵性的差異 02/18 17:13
→ ddavid: 在你這串開頭第一篇中講了「經常會透過分團(Clique, 02/18 17:14
→ ddavid: cluster analysis) 來將數據做分類」,我認為這邊用詞要更 02/18 17:14
→ ddavid: 明確小心些,因為你同時講了分群又講了分類 02/18 17:15
→ ddavid: 然後講回到分群,基本上是非監督式學習為主,所以事實上分 02/18 17:15
→ ddavid: 群是沒有唯一標準的,所以「必然」不會有所謂「分群就是在 02/18 17:17
→ ddavid: 找xxx」中的唯一xxx存在 02/18 17:17
推 wtchen: Spectral Biclustering? 02/18 17:22
對,是很接近的東西
不知道有沒辦法從checkbroad的圖形
去分析出資料可能的對稱性為何?
類似內文舉的水分子的C2v點群那樣
推 ddavid: 一般初接觸Clustering,往往會看到「分群是讓同一群的點盡 02/18 17:22
→ ddavid: 量相似,而不同群的點盡量不相似」之類的粗略入門介紹,但 02/18 17:23
→ ddavid: 光是這句話就未必是絕對的 02/18 17:25
推 ddavid: 所以原Po你所提到的方向,只能說可以建立出「一種分群方式 02/18 17:29
→ ddavid: 」,而無法說「分群就是這個」 02/18 17:30
推 ddavid: 像k-means跟DBSCAN找出的分群天差地遠,但不能說誰比較對 02/18 17:34
→ ddavid: ,所謂的對稱性也沒有必然存在,分群是可以在有向圖的點上 02/18 17:35
→ ddavid: 進行的 02/18 17:37
推 ddavid: Clustering的主要目標本來也就不是要找出肯定的結論,反而 02/18 17:49
→ ddavid: 是偏重在分割之後能幫助到後續分析就是有益的分群了 02/18 17:50
其實我的重點是再做分群前
如果能知道資料數據集的Ω
理論上,分群的速度會快非常多。
應該可以快10-100倍
→ followwar: 你對資料取的features決定分群的好壞 02/22 22:17
→ followwar: features反映什麼特性 就分出啥 02/22 22:18
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:20:25
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:33:26
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:34:47
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:23:02
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:30:27
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:36:28
※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:52:24
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 15:15:15
→ wtchen: tml 02/25 01:06
推 ddavid: 有些分群方法有自己的特點,並不是可以用同樣方法加速的 02/25 14:57
推 ddavid: 你可能沒有考慮到有很多分群演算法根本跟對角化一丁點關係 02/25 15:00
→ ddavid: 都沒有,甚至連同一群的instances要彼此相似這種限制都不 02/25 15:01
→ ddavid: 存在 02/25 15:01
→ ddavid: 所謂分群的好壞也沒有絕對性,是依據後續應用而定 02/25 15:05