看板 DataScience 關於我們 聯絡資訊
大家好 小弟最近在做 文本摘要中生成式摘要 需要中文的文本資料庫去進行訓練模型 但上網找都沒有找到 合適用來訓練模型的資料庫 不知道各位大大 有沒有推薦適合的資料庫呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.243.9 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1522289588.A.097.html ※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:15:13
del680202: 中午的語料庫?03/29 10:44
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:58:17
D0128431: 中午的 拍謝03/29 10:58
lucien0410: 我有明清小說03/29 11:09
lucien0410: 的語料庫03/29 11:09
lucien0410: 是做text summarization的意思嗎?03/29 11:11
D0128431: L 大 是的03/29 11:24
D0128431: L大已pm詢問囉03/29 11:37
lucien0410: 術語翻成中文 我一下子看不懂03/29 11:40
lucien0410: chinese gigaword 可能可以喔03/29 11:48
lucien0410: openNmt 的論壇有用english gigaword 來訓練text summ03/29 11:51
lucien0410: arier 的示範03/29 11:51
lucien0410: 中文的應該可以用 chinese gigaword 但我自己也沒實03/29 11:54
lucien0410: 際看過chiese gigaword的語料庫長怎樣03/29 11:54
lucien0410: https://goo.gl/UYBA7U03/29 11:58
lucien0410: 我找到樣本了 沒錯 這個可以用03/29 12:09
D0128431: 這個我有看過 但她的檔案格式都好陌生QQ03/29 12:10
lucien0410: 就是學會把text 變成headline03/29 12:10
D0128431: 可以請問一下l大的下載網址嗎03/29 12:11
lucien0410: 搞定(懂)格式 整理資料 真的是最花心力的03/29 12:15
lucien0410: 這個好像不是open dataset 03/29 12:21
lucien0410: 看看你的圖書館有沒有買
我今天看好像要付費 Q 不過還是謝謝你 03/29 12:24
yolanda1203: Lope PTT corpus
我剛剛去看好像找不到地方抓資料唉Q
D0128431: L大 我今天上去看好像要付費的樣子03/29 20:05
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:07:24 ※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:35:36 這個我也有寄信去問了 還沒人回覆我QQ ※ 編輯: D0128431 (114.137.243.9), 03/30/2018 07:43:24
Telemio: 我以前有用過中文維基當作語料 03/30 08:09
Telemio: 也有做chatbot時去爬蟲ptt的大板當作語料 ptt爬蟲還滿方 03/30 08:10
Telemio: 便的 google一下github有別人寫好的crawler 03/30 08:10
Telemio: 中文維基也可以自己google一下怎麼爬 03/30 08:10
目前我想法跟你類似 我也是打算去爬新聞來訓練xD ※ 編輯: D0128431 (114.137.243.9), 03/30/2018 10:02:21
toxicsweet: 那請問有人做English的text summarization嗎?有推薦 04/12 21:54
toxicsweet: 的模型和語料庫嗎 04/12 21:54
lucien0410: 我知道英文的 04/13 03:17
lucien0410: https://bit.ly/2HvxVvX 04/13 08:23