Re: [問題] 不同主題的情緒分析的資料庫

作者ddavid (謊言接線生)

看板Python

標題Re: [問題] 不同主題的情緒分析的資料庫

時間Wed Jun 10 14:24:16 2020

※ 引述《nchunerdy120 (batman)》之銘言： : 推 ddavid: 因為例如價格這個就比一般的情緒分析麻煩，所以就算做出一 06/09 20:59 : → ddavid: 套來也很難通用，難通用就相對比較不會有學術公開發表，一 06/09 21:00 : → ddavid: 般會是商業上自己獨門建一套出來只適用他經營項目這樣，自 06/09 21:01 : → ddavid: 然也不會開放出來（因為是他吃飯的傢伙） 06/09 21:01 : 推 ddavid: 你還是可以針對題目很類似的情緒或語意分析研究找看看有沒 06/09 21:11 : → ddavid: 有，不一定能找到就是 06/09 21:11 : 了解，所以要做好得自己定義一套的準備咯XDD 真的非常感謝您多次幫忙！！！對了，我講一下完整弄一套這個時可以考慮的一個招數。相信各位在網路上常玩過有種小遊戲是一直出現兩個選項叫你選比較喜歡的那個，選了很多次以後他就可以幫你弄出一個所有東西對你個人而言的排序結果。跟上面那個很相似，寫個可以一直隨機丟出兩個詞（或兩個句子）的網頁或app 讓使用者簡單點選「哪個詞讓你覺得比較貴？」最後就可以列出每個使用者對於每個詞的「價格」概念由貴到便宜排列，例如：天價 > 千金難買 > 買不起 > 昂貴 > 高價 > 高級 > 平價 > 實惠 > 便宜 > 廉價你想辦法讓更多人玩這個東西，把這些結果存起來，之後就可以建立Model直接從這些資訊去自動學每個詞的分數，到最後再測試並手動微調。這樣會比從頭到尾手動自己想一套分數來得合理。當然要建立這個程式並讓多一些人來測試也是有其麻煩之處啦，所以這只是一種可能性，你可以自己想想有什麼其他方法可以不要只靠自己觀點來從頭建立一套分數。至於學習的Model，比如最簡單就是把每個人最後排列出來的ranking normalize 到0到1之間，然後再對所有使用者同一個詞的normalized ranking加總平均作為分數。更進階當然會有更多適用不同情況的方法。例如前述例子就可以：天價 > 千金難買 > 買不起 > 昂貴 > 高價 > 高級 > 平價 > 實惠 > 便宜 > 廉價 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 每個人排列出來的結果當然不會一樣，因此每個人的結果加總平均，某種程度就解釋了受測者對於各個詞的平均昂貴程度語感。收集的受測資料越多，我們就可以期待應該可以更接近社會平均對詞彙的認知語感。最後說句老實話，包括以前那次回答，這些文章似乎發在DataScience版會更好，內容已經不太Python了XD。而且那邊有經驗的高手應該更集中，也許會得到更多不同的好答案。 -- 「去質疑親眼所見的事是最愚昧的行為。這又分為兩種－－質疑自己所見是不是真的，或是用見到的事去質疑沒見到的事。呵。」－－芙莉雅，謊言事務所實現使者 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.169.66.177 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1591770260.A.030.html ※ 編輯: ddavid (1.169.66.177 臺灣), 06/10/2020 14:25:55

推 nchunerdy120: 嗚嗚真的太感謝您了！！！會在python問一方面是想 06/10 23:18

→ nchunerdy120: 問情緒分析的package，然後也是因為不知道有datasci 06/10 23:18

→ nchunerdy120: ence版XDDD 謝謝您多次提點，萬分感謝！！！ 06/10 23:18

對了，其實忘了補充一句，明眼人可以很明顯看出上面那舉例中排列給出的分數是有問題的。至於怎麼修正？那就是手法各有巧妙不同，看自己的需求而定了。 ※ 編輯: ddavid (1.169.72.51 臺灣), 06/16/2020 10:13:36