看板 Math 關於我們 聯絡資訊
請問一下,兩坨二維資料集A,B A = {(x_1,y_1),(x_2,y_2),...,(x_n,y_n)} B = {(c_1,d_1),(c_2,d_2),...,(c_n,d_n)} 若已知平均數 m_x=m_c ,m_y=m_d 變異數 s_x=s_c_,s_y=s_d 共變異數 s_(xy)=s_(cd) (或是再加入一些條件,例如限制最大區域) 則A,B這兩個資料集會"很像"嗎 目前我自己沒有確切敘述去刻劃"很像",不過其他替代方案,比如KL-散度(看密度) 但我想要的"很像"比較像是【兩者同時都會是由左下到右上的斜線 or 同為很散佈的圓】 這種幾何圖形與分布上的很像 不是統計出身,沒啥sense QQ 目前有三個猜測: (1) 很難刻劃【兩者同時是某個圖形散佈】的數學定義 (2) 存在A,B滿足那些統計量都一樣,但是分布截然不同 (3) 即便有若【A,B滿足那些統計量都一樣】 則 【兩者同時是某個圖形散佈】 但是以電腦訓練的角度而言,很難讓程式自己把B的統計量修成跟A一樣 (造machine learning 造 loss function) 請指教,謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.128.169.29 ※ 文章網址: https://www.ptt.cc/bbs/Math/M.1522750536.A.6D8.html ※ 編輯: znmkhxrw (220.128.169.29), 04/03/2018 18:15:47
Pieteacher : 用 canonical correlation 看看關係? 04/03 18:21
chemmachine : 若兩筆資料相關係數1可已說他很像,你給的條件只能 04/03 18:47
chemmachine : 說它 sigma xy/sqrt(sigma xx)sqrt(sigma yy)= 04/03 18:48
chemmachine : sigma cd/sqrt(sigma cc)sqrt(sigma dd), 04/03 18:49
chemmachine : 沒有說它們分別為1。也就是說可以讓x序列和y序列相 04/03 18:51
chemmachine : 關係數1,c序列和d序列相關係數1 04/03 18:52
wohtp : 你的2就是答案。只用六個數字當然不足以定義總共2n 04/03 21:34
wohtp : 個數字的資料。 04/03 21:34
wohtp : 例子很容易造,例如圓圈和叉叉都是平均零相關係數零 04/03 21:37
wohtp : 但變異數非零的分布 04/03 21:37
wohtp : 一般你都要先大概知道拿到的分布會長什麼樣子,才能 04/03 21:41
wohtp : 決定要看什麼統計量。例如你明知道可能有雙峰,就不 04/03 21:41
wohtp : 能太倚賴平均和變異數。 04/03 21:41
LiamIssac : 可以定義類似total variation函數 sum_i abs(f(i)-g 04/03 22:48
LiamIssac : (i)) 然後再加上個threshold 04/03 22:48
znmkhxrw : 了解了! 謝謝樓上各位的解釋 04/05 00:48
yhliu : 如果不是 bivariate 的資料, 你會如何定義兩組資料 04/07 11:28
yhliu : "很像"? 除非這兩組資枓是具有共同順序, 如同一段時 04/07 11:30
yhliu : 間的兩個時間序列, 否則用 "相關" 類的指標來衡量是 04/07 11:32
yhliu : 否 "很像" 是不可行的. 用一些描述資料散佈特性指標 04/07 11:33
yhliu : 的比較才是合理的. 反過來說, 如果是兩序列的比較, 04/07 11:35
yhliu : "相關" 是一個可以考慮的方法, 但不同相關指標可能 04/07 11:37
yhliu : 代表忽視某些資料特性, 這也是需要考慮的. 04/07 11:38