看板 Statistics 關於我們 聯絡資訊
※ 引述《yhliu.bbs@bbs.cs.nctu.edu.tw ()》之銘言: : 如果是比較兩條 p.d.f. 曲線, f(x) 與 g(x), 可考慮 : ∫(f(x)-g(x))^2 dx (*) : 這是模仿 density estimation 中的 IMSE (integrated : mean squared error) 準則的指標. IMSE 是 : ∫E[(f*(x)-f(x))^2] dx 其中 f*(x) 是 f(x) 的估計量 : 但前項指標 (*) 其實也是數學上的 Eculidean-norm 或 : 2-norm. : 另一可考慮的拍標是 Kulback-Leibler divergence : ∫ln(f(x)/g(x)) f(x) dx : 其中對數在 information theory 習慣是取 2 為底,統計 : 上則習慣取自然對數. 如果原始資料是離散的數值,並不具備有像f(x)般的函數曲線, 那麼要如何使用KL divergence來衡量兩個數列的相似度呢? 例如,我有兩個數列分別是 A: 3,4,6,,9,10,22,16,17.. (共m個) B: 7,9,25,21,13,17,... (共n個,且 m!=n) 謝謝 :) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.123.102.81