看板 DataScience 關於我們 聯絡資訊
小弟我是第一次處理中文資料的問題 目前是打算用Keras LSTM做新聞的 Multi label classification 但是4個epoch就遇到了overfitting的問題 validation loss開始上升 且validation的準 確率也只有5成 我稍微評估了一下 問題應該在我前處理的部份(有試dropout跟 L1 L2) 我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典 同時也用stopword字典去除停詞 這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences 成為我的X 而後就在model內進行Embedding 想請問處理繁體中文資料要怎麼修改才不會overfitting呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html ※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02
st1009: 可以試試用字不要用詞(?11/08 18:45
st1009: 我猜有可能語料太小OOV太多,而且一些論文顯示斷詞不會讓11/08 18:47
st1009: 你得到更好的效果11/08 18:47
xiangying: 試試ckipws11/09 00:41
ckip處理大量資料要跑好久...是個人問題嗎? ※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04
a810501: 直接用bert來做transfer learning吧~他有中文預訓練模 11/10 00:56
a810501: 型也不用管斷詞問題 11/10 00:56
shhs1000246: bert直接下去啊 斷詞用結巴效果不好 除非是有改過的 11/11 02:45
wainshain: CKIP本來就要跑很久是他的弱點 11/12 09:01
wainshain: 現在都bert就不用管懂不懂那個詞了,超好用 11/12 09:02
sheep1129588: 直接芝麻街好朋友系列一排試下來XDD, BERT, ELMO 11/12 11:54
ciaoPTT: bert真心好用 11/12 19:16
roccqqck: 大家bert都pip安裝哪個寫啊 11/12 19:44
roccqqck: transformers嗎 11/12 19:44
roccqqck: 還是bert-tensorflow 11/12 19:44
roccqqck: 我是用前者 11/12 19:45
sheep1129588: huggingface有bert的pytorch版,還蠻好用的 11/16 16:53
roccqqck: 我就是用huggingface的transformers 但我用tf版 11/16 18:12
somoskylin: 樓上大大能否給個關鍵字,我想看斷詞不太影響結果的 11/21 15:59
somoskylin: 論文 11/21 15:59
st1009: Is Word Segmentation Necessary for Deep Learning of 11/21 22:35
st1009: Chinese? https://arxiv.org/abs/1905.05526 11/21 22:36
sxy67230: 我是用tf2.0的modeling模組 11/22 09:28
somoskylin: 感謝 11/24 18:58