作者Aqery (鏡頭你親三分我拿)
看板Browsers
標題Re: [-GC-] Google Reader 全文瀏覽
時間Tue Sep 21 06:54:15 2010
※ 引述《Aqery (鏡頭你親三分我拿)》之銘言:
: 標題: [-GC-] Google Reader 全文瀏覽
: 時間: Mon Sep 20 16:06:59 2010
: Google Reader Full Feed
: https://chrome.google.com/extensions/detail/ngjdkiihbphbiaeaaghhlacjnoekdcfe
: 這是一個可以讓Google Reader全文瀏覽的套件
: 原理是去抓 http://wedata.net/databases/LDRFullFeed/items 的資料庫
: 有興趣的人可以到上面那個連結的資料庫去加上自己喜歡的網站內容,
: 只要用OpenID登入即可,相當方便
: 需要輸入的主要是三項,url、xpath、type,還有如果不是UTF-8的話可輸入編碼enc
: 推 thecynic:把網站加進資料庫 可以請原po提供比較完整的教學嗎? 09/20 22:21
: → thecynic:我之前想加 但完全不得其門而入... 09/20 22:21
首先要先用 OpenID 登入這個資料庫
http://wedata.net/databases/LDRFullFeed/items
Google本身就可以當作 OpenID 的 Provider 了,所以這應該不是問題
接著要輸入的主要有下列幾項:
1. url
也就識別RSS的url,這個可以在你訂閱的RSS的 <link>...</link> 內可找到
舉例:
以 zdnet 新聞的 RSS 來說
http://www.zdnet.com.tw/rss/rss_summary.htm
把這個 XML 下載下來用記事本之類的文字編輯器打開,第五行是
<link>
http://www.zdnet.com.tw/news/ce/</link>
中間的
http://www.zdnet.com.tw/news/ce/ 就是我們要的 url
要注意的是網址本身要以 Regular Expression 的形式輸入,
所以上記的網址輸入的時候要寫成
^
http://www\.zdnet\.com\.tw/news/ce/
開頭要加個 ^,所有的 . 要改成 \.
用 Regular Expression 來表示有個很大的好處,
比如說以zdnet來說,他有提供好幾個分類的RSS,像是
總覽
http://www.zdnet.com.tw/news/ce/
專欄
http://www.zdnet.com.tw/enterprise/column/
這時候不需要分開加進資料庫,只要輸入
^
http://www\.zdnet\.com\.tw/.*
即表示所有以
http://www.zdnet.com.tw/ 開頭的 URL 了,
如果你熟 Regular Expression 的話是可以有更多的強大變化的,在此只是舉例
2. xpath
本文內容在該頁的 xpath,這個才是重點,但是說明起來比較麻煩...
舉例:
一樣以 zdnet 來說好了,請到下面連結該頁
http://www.zdnet.com.tw/news/ce/0,2000085674,20147607,00.htm
因為所有的 zdnet 的版面都是一樣的配置,所以用其中一頁當範本即可
用瀏覽器或者是文字編輯器打開檢視 HTML 原始碼的話,
你會發現我們要讀的文章內容有著以下的結構:
<div id="newscontent">
...文章內容...
</div>
這時候 xpath 就可以寫成 //div[@id="newscontent"] 了
意思是尋找所有的 id 是 newscontent 的 div 區塊
現在大多數的網站內文的地方都是用 div 整個圈起來的,
你只要找到該相對應的 id 或者是 class ,把上述的 xpath 的地方改一下即可,
像是
//div[@id="newscontent"]
//div[@class="content"]
之類的
少數結構比較特殊的網站可能不太適用這樣的對應方法 (像是巴哈...),
這個就要麻煩去真的了解 xpath 的語法才可以了,我只是舉個比較通用的例子
3. type
這個網站的類型,主要有下列幾種
SBM: Social Bookmark
IND: Indivisual site
SUB: General purposed blog site
GEN: General purpose site
個人的blog一般寫IND即可,天空、xuite等大型blog提供者用SUB,
不過這其實沒啥關係...純粹只是分類方便,
寫個 IND、SUB、GEN 都沒關係
4. enc
這項不是必須填的,如果該網站預設不是用UTF-8編碼的話可以填這項註明
編碼可把 RSS 的 XML 檔案用文字編輯器打開第一行可看到
舉例:
http://www.zdnet.com.tw/rss/rss_summary.htm
第一行就是 <?xml version="1.0" encoding="BIG5" ?>
編碼就寫 BIG5 即可......
大致上是這樣啦,詳細的話還是要懂 RegExp 和 xpath 的語法才行...
--
電影名導談情慾:高尚、藝術、台灣之光
動漫作品談性:變態、死阿宅、誤人子弟
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 130.216.51.107
推 DCaty:未看先推教學 09/21 07:44
推 thecynic:太感謝啦! 09/21 14:22
推 art1:推!!!! 09/21 14:52
推 MakinoSora:感謝教學!這樣我就可以新增我要的網站啦 09/22 11:57