看板 bioinfo_lab 關於我們 聯絡資訊
※ 引述《agomi (萊姆酒)》之銘言: : 利用阿pu寫出來的東西 : 我們已經可以抓到第一頁的那十篇paper的"目錄頁" : 所以我今天寫了一段parser : 把具有WOS那個紫色標籤的paper的 : ***我目前是假設只有具有WOS標籤的paper才有citation的資料 (有反例請提出Q_Q)*** : 1. paper title : 2. WOS的link : 抓出來 : 然後丟到另一個地方做處理 : ↓ "further work" ↓ : (有了WOS的link 進去之後就是那個可以看到CitedReference= XX 的網頁 : 這時候再去對這個頁面parse出CitedReferece的超連結 : 然後再去抓這個超連結開出的頁面的原始碼) : 這個動作做完之後 我們可以把 : 1. paper title : 2. 原始碼 : 轉成一個file存起來 : 這樣就算是完成一篇paper的citation : 最後只要讓sysc寫的parser來吃這個檔案就ok : ↑ 我這兩天想寫的東西 ↑ : 如果查詢nod2 : 會發現只有最後9 10這兩篇paper有WOS標誌 : 我目前想先針對這兩篇paper作處理 : 如果可以順利抓到上述的兩樣東西 : ↓ 最後的判斷迴圈 ↓ : 接下來就是要去寫"換頁"的判斷 : 就是查詢出來如果result有1000個 那就是100個頁面 : 要做99次的換頁判斷 : 以上. 歡迎大家討論 : 順利的話看來我們的作業有希望在三個禮拜之內結束 ---------------------------------假設你會成功--- 請記得把title 保留下來 例如title 是ABC 網頁內容事<test>testtword</TEST> 請將檔案存成xxx.xxx(自己決定就好) TITLE:ABC <test>testtword</TEST> 放在某個目錄, 看你要不要壓成zip 或怎麼樣 如果有兩頁reference, 請存兩個檔案 ------------------------------------------------ 另外預計的進度是手動到36頁做完...so...不知道snork 有做了嗎? 如果ok 那這星期預計進度就結束了, 可以開始弄下星期的部份了(每人+36 就是下次要弄好的, 後面有9 頁要再手動做) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.231.27
agomi:看到了 我試試看 01/24 09:23
snork:我弄了,趕工完成 (-__-)y--~ 01/24 11:38