作者KSJ (阿真)
看板HsinTien
標題[心得] 程式初步對板上交易文章統計
時間Sun Apr 24 15:42:55 2022
大家好 我目前正爬下新店版的交易文準備研究看看
利用程式爬了 文章標題包含 "[交易]" 的所有文章
從2011年8月7號至目前為止:
1. 板上共有
10384篇交易文章
2. 共有
2677位發過交易文的板友
3. 共有
N=698篇不符合格式的交易文章
裡面包含
X=343篇文章標題不是 "[交易] " (注意空格)開頭的
Y=373篇文章內文程式無法辨識 (修改內文時也改到格式)
也就是說 有
343+373-698=18篇雙冠王文章喔
4. 在發新交易文的
26位板友中,仍有
Z=1位目前仍違反試行板規的板友
這個是...
程式誤判啦~
比samok板主統計的差了2位,1位是 交易標題錯誤 所以程式找不出來
另1位是修改內文造成程式無法分析出發文日期
至於那一位仍違反板規的板友,也屬於程式的誤判。(汗
程式是統計到了一篇回了交易文的文章。這部分程式也必須精進才行呢。
所以 以目前程式配上人工檢查的結果
應該是沒有違規(板上 有新交易文 且 交易文篇數超過1篇)的板友了(灑花~
接著程式會調整一下上述的bug 然後等下個星期六 再來測試看看吧
已更新 -- 給變數的表示還在處理中(爬蟲爬內文中…) 後續會再更新上來
也想問板友有沒有什麼想知道的統計數據 也可以一併提出
我試著加看看
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.33.8 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/HsinTien/M.1650786178.A.386.html
推 lilithlin : 推 04/24 17:12
推 ChizCake : 謝謝板主 04/24 18:11
→ samok : Z那個數字本週應該就是15 04/24 19:31
目前感覺是0了 不知道板主還是板友刪的 0.0
→ samok : Y其實最麻煩 有的會改成[售出] 或是舊的標題規定 04/24 19:32
對舊文… 也許可以找找「售出」...等字眼來處理
新的文可能要規劃一下 售出後不改動原「交易」分類 程式會比較好處理
甚至修內文也盡量不要修到既有標題、頁尾內容等 讓程式能截出正確的日期
(舊交易文中有一篇把內容中日期的「年」砍掉了…程式就會卡住0.0)
推 sank : 推 04/25 02:08
推 gman1975 : 好厲害!!推推 04/25 21:03
嘿嘿 再來比較想做的是 自動標記要被刪除的舊交易文
抽出時間 繼續努力吧~~
※ 編輯: KSJ (122.116.33.8 臺灣), 04/27/2022 00:49:30