作者sleepwu ( hopeful)
看板CodeJob
標題[發案] 抓網頁資料
時間Fri Jul 20 19:00:09 2012
案件狀態:已結案
發案人:吳先生
聯絡方式1:william.wu70278@gmail.com
聯絡方式2:站內信
所在地區 :
有效時間:即日起
專案說明:我有一批書的ISBN,大約十萬筆
想到全國書目資訊網
http://nbinet3.ncl.edu.tw/search
去抓每本書的編目檔(點擊以"機讀格式顯示"即是),
如
http://ppt.cc/PCqL網頁中,
LEADER 00000cam2 2200289 450C
001 DYNIX__501576
005 20081017165201.0
008
010 0 978-986-6881-76-3|b平裝|dNT$250
042 nbi9809bp01
100 20080415d2007 k y0chiy09 e
101 0 chi
102 tw
105 a z 000yy
200 1 機器人|h1|f姚松麟等作
205 再版
210 臺北市|c旗林文化出版|c三友圖書總代理|d2007[民96]
215 0 184面|c彩圖|d21公分
225 1 生活學習|v45
225 1 NXT系列|v1
516 11 Robot機器人1|zchi
606 |2csh|a機器人
606 |2csh|a九年一貫課程
606 |2csh|a科技教育
606 |2csh|a電腦教育
681 523.36|b4240|v增訂八版
700 1 姚|b松麟|4作
801 2 tw|bPTL|c20080624|gCCR|m4
805 PTL|c31120008359076ptl|d523.36|e4240|f03|yv.1|tCCL|w20|x20
|z681
這串文字。但每個ISBN的搜尋結果可能不只一筆,也可能不只一層。
(如
http://ppt.cc/6KAg,搜尋結果有兩筆)
我只要每一層的第一筆的資料即可,即一本書抓到一個編目檔即可。
若搜尋不到這本書則跳過。
我不需要程式碼,不需要執行檔,您可以用任何您熟悉的語言跟方式
只要把這批編目檔抓給我即可。
預算:來信報價,並請說明您預計使用什麼方式執行,預估時程須多久
接案者要求:無要求
接受新手承案否:否
附註:
若您可以進一步只擷取編目檔中的特定文字的話更好
關於擷取特定文字,因為其實我想要的是書的分類號
但編目檔其實有可能是不同格式
但判斷方式就是:
1.若ISBN出現在前三碼為010的那行,則分類號會註記於前三碼為681的那行,就擷取那行
2.若ISBN出現在前三碼為020的那行,則分類號會註記於前三碼為090的那行,就擷取那行
3.若ISBN有出現於010或020的那行,但卻沒有681或090,那麼這筆可以跳過(表示他沒有
分類號)
若這步驟很麻煩的話也可以不做,因為我已寫好從編目檔擷取分類號的函式
只是效率沒有很好,將就用用
(以下內容鼓勵結案後填寫,可以詢問接案人願不願意暴光接案身份)
結案意見:
接案人:
評價(0-10):
說明:
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.160.228.104
※ 編輯: sleepwu 來自: 118.160.228.104 (07/20 19:02)
→ pa4373:已寄信喔謝謝 07/20 20:50
→ kiii210:已寄信..好多人@@.. 07/20 21:02
→ sleepwu:目前已有多人來信 陸續與各位討論中 請各位先不必開始作業 07/21 00:56
→ sleepwu:若確定要請您幫忙會再與您確認 謝謝喔 07/21 00:57
※ 編輯: sleepwu 來自: 118.160.228.104 (07/21 01:36)
※ 編輯: sleepwu 來自: 114.43.90.124 (07/22 03:39)
※ 編輯: sleepwu 來自: 114.43.90.124 (07/22 17:00)