看板 Python 關於我們 聯絡資訊
分享給對text mining有興趣的朋友 以下是我個人架設的 MySQL 平台 目前累積超過 500 萬篇 ptt 文章 ( 包含八卦版,總共36GB ),連結如下 http://114.34.138.146/phpmyadmin/ 另外以下連結是我的 github ,有對平台做一些介紹, https://github.com/f496328mm/Crawler_and_Share github中提供關於 py 連上 MySQL 的範例 1. py_connect_sql_example.py,可自由取得 SQL 中的 data,該程式中已將格式轉為 dataframe ,利於分析。 2. upload_clean_data.py,可上傳 data 的帳號,提供各位進行 data clean 後, 一個上傳/分享的管道,這樣就不需要每個人都進行 data clean,合作的概念。 程式中提供建立 data file 和上傳 data 的範例。 PS : 如需其他 PTT 文章,可以私訊我,我會優先進行爬蟲。 PS2: 本人在當兵中,放假不固定,有時間會上 github or ptt 進行回覆。 ---------------------------------------------------------------------- 另外即使我當兵期間,程式也設定好,每天爬取新文章 and 舊的文章, 基本上 500 萬篇應該超過 PTT 一半以上的文章了吧? 如果有些版,特別多文章,而我沒有注意到,麻煩再寄信提醒我,謝謝 --------------------------------------------------------------------- 如果有建議也歡迎提供,本人數學系出身,這方面沒什麼經驗, 幾乎都是土法煉鋼 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.63.132 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1509802847.A.AFB.html
janice001: 。11/04 21:42
shuwei12: 推 我也是用python寫 還有搭配mail會通知11/05 01:32
shuwei12: 為了抓股版的抄底王XD11/05 01:33
goldflower: 話說我每次都在想 不想被放在ptt以外的人可以告嗎XD11/05 01:41
Sunal: 樓上是想說智財的重製跟散佈? 11/05 08:41
vi000246: 站方本身是不允許這種備份行為的.. 只是抓不到11/05 11:14
alan23273850: 如果不允許,那麼fb的出賣表特又該如何解釋呢?11/05 20:47
vi000246: 違反站規的事情你做了沒被抓不代表站方默許11/06 12:29
vi000246: 可以去看看PttAntiBot這個看板11/06 12:29
vi000246: 如果是單個爬蟲就算了 做了分散式爬蟲算是DDOS了11/06 12:30
vi000246: 要用法律治你也是可以的11/06 12:30
f496328mm: 樓上其實說的沒錯,爬蟲有點遊走在法律邊緣,甚至有些11/06 20:05
f496328mm: 網站會擋,程式瀏覽網頁跟人的行為非常不同,不難抓/ 11/06 20:05
f496328mm: 擋11/06 20:05
bluecadence: 除非要玩文字探勘不然架這個用途想不太出要做什麼,11/07 15:21
bluecadence: 不如架一個股票股價相關資訊的資料庫應該會大受歡迎11/07 15:23
bluecadence: (純屬個人偏見)11/07 15:24
bluecadence: 不過受歡迎後吃掉的頻寬/資源就很可觀了 :p11/07 15:27
f496328mm: 我的目的就是text mining、nlp11/07 20:18
f496328mm: 目前在當兵,PTT也快抓完了,會再去抓其他data11/08 07:10
※ 編輯: f496328mm (42.78.158.110), 11/10/2017 07:13:55
chan15: 你中文都沒遇到問題嗎,我常遇到 cp950,即便對方編碼是 u 11/13 12:11
chan15: tf8 11/13 12:11
f496328mm: chan,我目前都沒遇到過,爬新聞、雜誌等等都沒遇到 11/13 19:40