看板 Python 關於我們 聯絡資訊
嗨大家晚安 感謝上次大家幫我解決球員傷病關鍵字提取的問題,今天又有新的問題要來麻煩各位了。 問題是這樣的,我有約莫一萬個與籃球有關的詞彙,而我想將它們一一分類,像是: NBA>組織 FREAK 1>球鞋 Karl Malone >球員 走步>規則 像是以上這樣子,我創了10個類別包括組織、球鞋、球員、傷病、品牌、服飾、獎項、個人數據、規則、其他 想問有什麼方法可以將這一萬個詞彙分類到屬於它們的類別呢? 我上網查了一陣只查到doccono這個方便標記的介面,好像比較少看到如何去訓練這種取向的模型 再麻煩各位如果知道的話還請和我說該查什麼關鍵字了,感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.35.153 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1585673832.A.93F.html
MacBook5566: entity typing/linking 04/01 01:11
我查了一下發現有點類似,但不可避免還是需要上下文,雖然合理不過我手邊這些entity沒有上下文
ddavid: 關鍵在你畢竟還是需要不少已經分類好的詞做training,而且 04/01 10:46
ddavid: 直覺來看這個分類器可能正確率不會太高 04/01 10:47
ddavid: 詞分類的線索不多,這些類別又不少容易混淆 04/01 10:50
ddavid: 看到Nike到底是組織、品牌或服飾呢? 04/01 10:52
ddavid: 其中有一些引入前後文或人類知識會有幫助,比如裡面有動詞 04/01 10:56
的確,沒有上下文會是一個蠻困擾的狀況。不過現階段只是想做個粗淺的分類,因此把Nike分到品牌或組織都是可接受,但不會分到服飾或球鞋,除非這個字是「Nike風衣」,「Nike airmax 90」這種有特定形象的才會分到服飾或球鞋
ddavid: 那高機率屬於規則類、NBA球員列表資料庫直接比對等等 04/01 10:57
※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:13:11 ※ 編輯: moodoa3583 (114.137.35.153 臺灣), 04/01/2020 11:24:48
TuCH: 可以收集很多文章 做 word2vec 04/01 11:25