看板 Python 關於我們 聯絡資訊
https://www.sendspace.com/file/ysmnfn 上面是我的程式碼跟測試檔案aa.html 我在使用pd.read_html 過濾html裡面出表格發現我aa.html 用瀏覽器看有兩個表格 但是程式用 pd.read_html 分析出來只有一個表格 想請問一下這是什麼原因? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.181.186.197 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1491111726.A.35D.html
s860134: #1OjKCMQn 個人猜測又跟 parser 的爬法有關係拉... 04/02 15:25
gigigigi: 這是爬法造成?不過看上面文章感覺是html語法問題造成 04/02 16:52
gigigigi: pd.read_html 的 parser 失敗 04/02 16:52
s860134: 看你怎麼看啦,看你覺得是工具不好使,還是資料不符工具 04/02 16:57
zerof: http://imgur.com/qXvdevF 你 input 的 html 有問題 04/02 17:47
gigigigi: 請問哪邊看出問題 ?? == $0 嘛? 04/02 23:44
gigigigi: https://www.zhihu.com/question/52031439 04/02 23:44
gigigigi: 請問有什麼方法或是工具可以檢查出html 問題的地方嘛? 04/02 23:46
zerof: ....一個<table>裡面只能有一個<thead>跟<tbody> 04/03 01:02
zerof: 這也是為什麼pd read_html 只會出現上半部(之後的兩個tag是 04/03 01:03
zerof: 不合法的 04/03 01:03
gigigigi: 了解! 感謝... 我試試看用soup拆解出來在丟到pandas 04/03 02:22