[問題] 從文字評論探勘分類器特徵值

作者nchunerdy120 (batman)

看板DataScience

標題[問題] 從文字評論探勘分類器特徵值

時間Tue Jul 14 00:34:55 2020

作業系統: win10 問題類別:ML, NLP 使用工具: Python 問題內容: 主要任務是從餐飲評論中，找出能夠套用在篩選餐飲的特徵值例如所有評論都有類似「東西很好吃，價錢也不貴，可是服務不太好」的內容，就可以推論餐飲普遍重視食物口味、服務、以及價錢在知道口味，服務，價錢很重要後，該怎麼針對這三個特徵去給值呢？例如A餐廳「東西很好吃，價錢也不貴，可是服務不太好」，B餐廳「東西不好吃，價錢偏貴，可是服務很好」，該怎麼給出A餐廳跟B餐廳，在口味，服務，價錢這三個面向的分數呢？我目前的想法是不知道有沒有專屬於各個面向的情緒分析，或是專屬於各個面向的分類模型，用那個情緒分析或分類模型來給值想知道有沒有其他方法呢？或是有我說明不清的地方也麻煩各位提出，感謝～ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.251.155 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1594658097.A.491.html

→ roccqqck: Train 3個model啊07/14 00:48

可是那三個面向沒有標籤，請問要怎麼訓練呢orz

→ roccqqck: 你找找multiple choice07/14 00:50

請問是直接搜multiple choice嗎？我搜出來是如何用python出選擇題@@ 感謝回答！ ※ 編輯: nchunerdy120 (36.231.57.7 臺灣), 07/14/2020 07:00:35

推 st1009: 直接rule base人工標記關鍵字感覺最簡單，肯定跟否定關鍵07/14 07:23

推 st1009: 可以拿別人做好的07/14 07:23

請問別人做好的rule based是從kaggle抓嗎？還是有其他管道呢？感謝！ ※ 編輯: nchunerdy120 (223.136.251.155 臺灣), 07/14/2020 07:54:26

→ jigfopsda: 一樓說的應該是 bert multiple choice07/14 08:58

好的，我研究看看，感謝～

→ roccqqck: 自己label啊不要指望別人幫你label 07/14 12:08

所以這種情況一般都是自己標籤嗎？因為我第一次處理這種東西，然後數據量又很大（八百萬筆），所以問題比較多，感謝

推 st1009: 我個人是推薦從github抓 07/14 12:36

好的我查查看，感謝～ ※ 編輯: nchunerdy120 (223.136.251.155 臺灣), 07/14/2020 16:30:31

推 sean50301: 關鍵字: aspect level sentiment analysis 07/14 21:07

感謝您，我查查看～ ※ 編輯: nchunerdy120 (223.136.138.95 臺灣), 07/15/2020 10:20:07

推 sxy67230: 可以考慮用bert接三個分類器，出來就是三個類的評分， 07/17 21:11

→ sxy67230: 初期可以考慮請人手動標出一百篇三項評分，或是爬蟲看 07/17 21:11

→ sxy67230: 看有沒有現成網站資料可以蒐集，在嘗試用snorkel做資料 07/17 21:11

→ sxy67230: 增強。個人認為表現應該就很不錯了 07/17 21:11

推 littleyuan: bert 加上一層NN負責分類就可以 07/28 07:23

→ littleyuan: 花錢找labeling company幫忙印度有台灣好像也有些慈 07/28 07:24

→ littleyuan: 善機構有 07/28 07:24