作者sysc (標準化流程)
看板bioinfo_lab
標題Re: [情報] 我現在在做的工作...
時間Tue Jan 24 01:45:06 2006
※ 引述《agomi (萊姆酒)》之銘言:
: 利用阿pu寫出來的東西
: 我們已經可以抓到第一頁的那十篇paper的"目錄頁"
: 所以我今天寫了一段parser
: 把具有WOS那個紫色標籤的paper的
: ***我目前是假設只有具有WOS標籤的paper才有citation的資料 (有反例請提出Q_Q)***
: 1. paper title
: 2. WOS的link
: 抓出來
: 然後丟到另一個地方做處理
: ↓ "further work" ↓
: (有了WOS的link 進去之後就是那個可以看到CitedReference= XX 的網頁
: 這時候再去對這個頁面parse出CitedReferece的超連結
: 然後再去抓這個超連結開出的頁面的原始碼)
: 這個動作做完之後 我們可以把
: 1. paper title
: 2. 原始碼
: 轉成一個file存起來
: 這樣就算是完成一篇paper的citation
: 最後只要讓sysc寫的parser來吃這個檔案就ok
: ↑ 我這兩天想寫的東西 ↑
: 如果查詢nod2
: 會發現只有最後9 10這兩篇paper有WOS標誌
: 我目前想先針對這兩篇paper作處理
: 如果可以順利抓到上述的兩樣東西
: ↓ 最後的判斷迴圈 ↓
: 接下來就是要去寫"換頁"的判斷
: 就是查詢出來如果result有1000個 那就是100個頁面
: 要做99次的換頁判斷
: 以上. 歡迎大家討論
: 順利的話看來我們的作業有希望在三個禮拜之內結束
---------------------------------假設你會成功---
請記得把title 保留下來
例如title 是ABC
網頁內容事<test>testtword</TEST>
請將檔案存成xxx.xxx(自己決定就好)
TITLE:ABC
<test>testtword</TEST>
放在某個目錄, 看你要不要壓成zip 或怎麼樣
如果有兩頁reference, 請存兩個檔案
------------------------------------------------
另外預計的進度是手動到36頁做完...so...不知道snork 有做了嗎?
如果ok 那這星期預計進度就結束了, 可以開始弄下星期的部份了(每人+36
就是下次要弄好的, 後面有9 頁要再手動做)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.231.27
推 agomi:看到了 我試試看 01/24 09:23
推 snork:我弄了,趕工完成 (-__-)y--~ 01/24 11:38