作者scuderia ( )
看板EZsoft
標題Re: [請問] 有沒有html或文字軟體可以"擷取"前後的 …
時間Thu Aug 19 20:14:53 2010
※ 引述《to1322 (to1322)》之銘言:
: 最近在幫公司做網頁html資料整理
: 想從html裡把需要的文字取出(目前是一個一個"拷貝"+"貼上"在word)
: <h6><a href="pplo/PENIAS">PENIAS</a></h6>
: 中間的"PENIAS"就是我要的文字
: 它固定夾在<h6>...</h6>中間
: 而前後段又都有很多我不需要的程式碼
: 一個html裡大概有幾百個我需要的
: 有沒有軟體可以幫我把<h6>......</h6>
: 中間這一段我需要的文字留下
: 不需要的程式碼移除的文字軟體呢?
: 感謝鄉民大大
之前遇過類似問題,跟大家分享,獻醜了。
以你的例子來說,把原始碼複製到 Notepad++ 之類的文字編輯器,
取代掉空白、斷行之類的之後整理成有條理的呈現方式..
<h6><a href="pplo/PENIAS">PENIAS</a></h6>
接著用取代功能,把 "> 代換為 ">, 而 </a> 代換為 ,</a>,
就會變成這樣:
<h6><a href="pplo/PENIAS">
,PENIAS
,</a></h6>
接著將這個文字檔存成 txt,打開 excel 使用資料匯入功能,
分隔符號選擇為 , 後匯入,
就會變成:
A | B | C
1 <h6><a href="pplo/PENIAS"> |PENIAS | </a>
2 | |
3 | |
按一下 B 就可以全選複製貼上到你要的地方去了,
這個方法的優點是可以同時篩選出多組字串,提供你參考 :)
如果所需字串前後是字數相同但是內容不同需要去除,如:
<h6><a href="pplo/1111">1111</a></h6>
<h6><a href="pplo/2222">2222</a></h6>
<h6><a href="pplo/3333">3333</a></h6>
可以直接在 Notepad++ 使用巨集功能錄製鍵盤動作,
例如在 <h6> 前面按 24 下 del 然後按 ↓ 再按 home 到下一行首,
然後讓他自動執行到文件結尾,就可以輕鬆全部砍掉,
剩下的再用取代功能去掉就好。
以上,給您做參考 :)
--
馬皇馬皇!那邊有個村子 馬皇馬皇!好幾個國家說要來 馬皇馬皇~為什麼災情這麼慘
滅了 幫忙救災 文字:scuderia You ψQSWEET
東森 ◥ 騜 ◥ 東森 ◥ 騜 ◥ CNN ◥see! ◤ 騜
◤◎ ◎ 喔~~ ◤︶ ︶ ◤◎ ◎ 喔~~ ◤︶ ︶ ◤◎ ◎ They自己⊙ ⊙◥
◥ ◤ ◥ █◤ ◥ ◤ ◥ 3◤╯ξ
◥ ◤沒準備 ◥皿 ◤
◥ ◥◥ (哈欠)◤ ◥◤ ◥ ◥◥ (煙~) ◤ ◥ ◤ ̄ ◥ ◥◥怪我喔?(
◥ ◤ ◤)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.161.248.69
→ imphs:不用吧 excel可以貼網頁 跟 word一樣 他能自動轉出文字 08/19 22:14
推 winth:不明白為何不直接開瀏覽器再把字copy就好?它是html不是嗎? 08/19 22:57
→ onelife:樓上,這樣要copy數千次吧 08/20 09:20
→ r31422009: < 取代 <!-- 然後 > 取代 --><br> 再用網頁開 08/20 09:43
→ r31422009:然後排序濾掉空行, 或是取代掉空行換行 08/20 09:45
→ r31422009:不過文件內若有用到 > <文字 此法可能就不行 08/20 09:47
→ onelife:如果要一次處理所有檔案,用Notepad++的搜尋目錄,尋找 08/20 11:39
→ onelife:「<h6><a href=」,然後把搜尋結果複製到新文件裡 08/20 11:39
→ onelife:再用正規表示式 08/20 11:40
→ onelife:尋找「.*<h6><a href="[^"]*">(.+)</a></h6>.*」 08/20 11:40
→ onelife: 以「\1」取代之 08/20 11:41
→ onelife:上述只是寫個大概,實際處理得看關鍵字怎麼變化 08/20 11:41
→ knives:正規表示式,一招KO,就非得搞得那麼麻煩幹嘛 08/21 16:44