作者ntumath (math mad)
看板Python
標題Re: [問題] pandas爬蟲問題
時間Tue Feb 28 17:29:55 2017
這個問題應該牽涉到你的html的寫法
在thead中
<tr>
<td>ID</td>
<td>NAME</td>
</tr>
我猜測你想要把ID和NAME當每行的Index,不然你不會特別寫在thead裡
但是我去看pandas.read_html的source中的parse_raw_thead,他預設
我們thead的標籤都用<th>,對於html的coder也是很標準的?
p.s.用<th>還有一個好處,在網頁中他會把字置中還有粗體
所以這邊有兩個處理方法
1. ID和NAME的標籤改<th>,這樣結果會對
2. 不要用thead了,就一個tbody,把東西都塞進去
小心得:我看很多網頁,大家都乖乖的用th,應該第一種寫法比較好
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.253.33
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1488274198.A.6B1.html
※ 編輯: ntumath (140.112.253.33), 02/28/2017 17:33:23
推 s860134: trace code XD 02/28 21:37
推 Czero: 原來如此~我是之前在其他網頁看到有用<threa>但是沒抓到XD 03/02 23:05