精華區beta RegExp 關於我們 聯絡資訊
我有一個檔案像這樣 >sp|P15711|104K_THEPA 104 kDa microneme/rhoptry antigen OS=Theileria parva GN=TP04_0437 PE=2 SV=100 MKFLILLFNILCLFPVLAADNHGVGPQGASGVDPITFDINSNQTGPAFLTAVEMAGVKYL QVQHGSNVNIHRLVEGNVVIWENASTPLYTGAIVTNNDGPYMAYVEVLGDPNLQFFIKSG DAWVTLSEHEYLAKLQEIRQAVHIESVFSLNMAFQLENNKYEVETHAKNGANMVTFIPRN GHICKMVYHKNVRIYKATGNDTVTSVVGFFRGLRLLLINVFSIDDNGMMSNRYFQHVDDK >sp... DAWVTLSEHEYLAKLQEIRQAVHIESVFSLNMAFQLENNKYEVETHAKNGANMVTFIPRN ... >sp... GHICKMVYHKNVRIYKATGNDTVTSVVGFFRGLRLLLINVFSIDDNGMMSNRYFQHVDDK ... >sp... FL... ... 每個蛋白質都由 >sp 隔開,我想算中間那段有多少char, 不知怎麼下 expression ? thanks -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.114.71.98
PsMonkey:RE 沒辦法算長度吧? 08/26 09:29
hardcover:喔喔,本來是想說看能不能用一些 linux 上的ultilities 08/27 10:48
hardcover:就把答案湊出來。後來還是要寫 program 08/27 10:49
> -------------------------------------------------------------------------- < 作者: supertitler (好難OO) 看板: RegExp 標題: Re: [問題] 算蛋白質長度 時間: Tue Aug 26 14:00:39 2008 先說一下我的假設 你有一個檔案像這樣 : >sp|P15711|104K_THEPA 104 kDa microneme/rhoptry antigen OS=Theileria parva GN=TP04_0437 PE=2 SV=100 以>來區隔每個蛋白質,而後是蛋白質的metadata(?) metadata中不會出現\n,最後以換行作結束 如果是這樣的話 : 每個蛋白質都由 >sp 隔開,我想算中間那段有多少char, : 不知怎麼下 expression ? 要算中間那段資料有多少字元,先取出字串,再看長度多少囉 我的作法是(\n[^>]*),如此可以取得中間的那段資料 至於中間的資料有換行的部份可以直接取代成空白就好 然後看你用什麼語言,去得到字串長度 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.129.169.253 ※ 編輯: supertitler 來自: 220.129.169.253 (08/26 14:56)
hardcover:thanks 08/27 10:50
MichaelHsin: | wc -c 08/27 16:36