看板 Soft_Job 關於我們 聯絡資訊
※ 引述《chucheng (時間太少事情太多)》之銘言: : 一個隱含的假設是使用者的Personalization不需要考量 : 舉一個我以前犯過錯的例子, : 用association rule做query recommendation(based on log) : 大部份的人搜shoe之後會搜high heel,等等 : 後來發現因為女生上網買鞋多,等於間接假設所有user都是女生 : 假設同一個人,比較正確的說法是「personalization」不考慮 有點好奇實務上是怎麼考慮處理這些問題的 遇到無法取得個人資料的狀況 這樣推薦的結果常會差到不能接受嗎? 例如,若70%搜尋shoes的user是女生 若所有搜尋shoes的人都推薦high heels 可能有70%左右的推薦是準確的 剩下的30%也可能因為後續的搜尋而更加準確? : 另一個有趣的軼聞是 : 當年第一篇paper發表的時候,作者的經典範例是 : beer-->diaper (經典的beer and diaper story) : 但用同樣的資料集,後人無法 "重製" 這個結果 : 話說有可能演講時只是故意舉個頌動的例子就是了XD 大家小時候上data mining課都被這個故事騙了嗎....XD : : 像Mahout現成recommendation engine的機制 : : 似乎比較適合Google Play, Netflix這種容易蒐集rating的應用 : : 不知道我是否有什麼疏漏或誤會的地方 : : 或者C大是指使用Mahout底層的矩陣map reduce運算,自行建構推薦演算法? : 我也遇到一個類似的問題,也有想到一些解法(自以為絕妙的idea XD) : 做的差不多了,100%會投今年的CIKM (比較可能,因為地點在San Francisco) or ICDM : 不過因為涉及(尊重)一些公司資料的policy,Approve / Accept前沒辦法談太多 : 應該六月就有結果,之後我可私下mail draft給你參考(如果等不及conf.的話) : 當然也有很多類似的研究,可以參考一下KDD的Paper or 例年的Challenge 有機會的話希望能早點讀到C大的論文 另外,想請教針對這個特定的情境 (沒有rating而光靠user transaction做recommendation) 還有哪一些指標性的paper或者keyword呢? : Apriori當資料大時很容易爆掉 : 先試著用Fp-growth,通常10G級數以內可以輕鬆搞定 : 有人有提出parallel的方法http://dl.acm.org/citation.cfm?id=1454027 : 我沒實作過,不過我通常處理的資料級都在100G以內 : 我很垃圾(不要臉)的…這時候我都是… : 弄台強一點的server丟上去跑好是了,能不碰map-reduce就不碰 : 就算碰也是拿來作資料清理或是encoding這一類的單純工作 : 最後的分析還是拿回單機跑 嗯嗯,之前有看到這篇,但我也沒實作過 我目前也沒把associative mining分散化 只是先假想一下如果長到TB/PB等級時要怎麼做 與其說不要臉,可以說是… 避免over enginnering,造成不必要的開發/運行代價 XD : 如果你要搞Collaborative Filtering Recommendation : 我推薦試試看CMU教授Carlos設計的GraphLab : http://graphlab.org/ : 我還沒認真研究,但其它同行好評不斷 感謝推薦,有空來看看 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.130.149.28