[機統] 兩筆二維資料相似程度

作者znmkhxrw (QQ)

看板Math

標題[機統] 兩筆二維資料相似程度

時間Tue Apr 3 18:15:33 2018

請問一下，兩坨二維資料集A,B A = {(x_1,y_1),(x_2,y_2),...,(x_n,y_n)} B = {(c_1,d_1),(c_2,d_2),...,(c_n,d_n)} 若已知平均數 m_x=m_c ,m_y=m_d 變異數 s_x=s_c_,s_y=s_d 共變異數 s_(xy)=s_(cd) (或是再加入一些條件，例如限制最大區域) 則A,B這兩個資料集會"很像"嗎目前我自己沒有確切敘述去刻劃"很像"，不過其他替代方案，比如KL-散度(看密度) 但我想要的"很像"比較像是【兩者同時都會是由左下到右上的斜線 or 同為很散佈的圓】這種幾何圖形與分布上的很像不是統計出身，沒啥sense QQ 目前有三個猜測： (1) 很難刻劃【兩者同時是某個圖形散佈】的數學定義 (2) 存在A,B滿足那些統計量都一樣，但是分布截然不同 (3) 即便有若【A,B滿足那些統計量都一樣】則【兩者同時是某個圖形散佈】但是以電腦訓練的角度而言，很難讓程式自己把B的統計量修成跟A一樣 (造machine learning 造 loss function) 請指教，謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.128.169.29 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1522750536.A.6D8.html ※ 編輯: znmkhxrw (220.128.169.29), 04/03/2018 18:15:47

→ Pieteacher : 用 canonical correlation 看看關係？ 04/03 18:21

推 chemmachine : 若兩筆資料相關係數1可已說他很像，你給的條件只能 04/03 18:47

→ chemmachine : 說它 sigma xy/sqrt(sigma xx)sqrt(sigma yy)= 04/03 18:48

→ chemmachine : sigma cd/sqrt(sigma cc)sqrt(sigma dd), 04/03 18:49

→ chemmachine : 沒有說它們分別為1。也就是說可以讓x序列和y序列相 04/03 18:51

→ chemmachine : 關係數1，c序列和d序列相關係數1 04/03 18:52

推 wohtp : 你的2就是答案。只用六個數字當然不足以定義總共2n 04/03 21:34

→ wohtp : 個數字的資料。 04/03 21:34

→ wohtp : 例子很容易造，例如圓圈和叉叉都是平均零相關係數零 04/03 21:37

→ wohtp : 但變異數非零的分布 04/03 21:37

→ wohtp : 一般你都要先大概知道拿到的分布會長什麼樣子，才能 04/03 21:41

→ wohtp : 決定要看什麼統計量。例如你明知道可能有雙峰，就不 04/03 21:41

→ wohtp : 能太倚賴平均和變異數。 04/03 21:41

推 LiamIssac : 可以定義類似total variation函數 sum_i abs(f(i)-g 04/03 22:48

→ LiamIssac : (i)) 然後再加上個threshold 04/03 22:48

→ znmkhxrw : 了解了! 謝謝樓上各位的解釋 04/05 00:48

→ yhliu : 如果不是 bivariate 的資料, 你會如何定義兩組資料 04/07 11:28

→ yhliu : "很像"? 除非這兩組資枓是具有共同順序, 如同一段時 04/07 11:30

→ yhliu : 間的兩個時間序列, 否則用 "相關" 類的指標來衡量是 04/07 11:32

→ yhliu : 否 "很像" 是不可行的. 用一些描述資料散佈特性指標 04/07 11:33

→ yhliu : 的比較才是合理的. 反過來說, 如果是兩序列的比較, 04/07 11:35

→ yhliu : "相關" 是一個可以考慮的方法, 但不同相關指標可能 04/07 11:37

→ yhliu : 代表忽視某些資料特性, 這也是需要考慮的. 04/07 11:38