作者aattsat (DungDung)
看板Perl
標題Re: [請益] 字串部分比對篩選
時間Fri Dec 7 15:57:25 2012
※ 引述《killerjackal (比利養了一隻狗叫比利)》之銘言:
: 現在手邊有兩個檔案
: 檔案的格式都差不多長一樣
: >xxxxxxx(title)xxxxxxxxx
: stringstringstringstring......
: A檔案格式如下:
: >UniqueRead1_count1
: CTCGCCGTCGCAAACCCAAGCTGTCT
: >UniqueRead2_count1
: CTCGCCTGGCTGTGGTTCTTCTAACA
: >UniqueRead3_count1
: CTCGCCTGCTAAGCGTTGAGATCATC
: B檔案如下:
: >UniqueRead1_count1
: CTCGCCCCCCCAAAAAAAACAAAAACGCCTCATACGAGATTATCAATTAGCTAAGTTGGTAATGTG
: >UniqueRead2_count1
: CTCGCCGCCAGTAACATTCATTTACGTTTTATCATATATTTGATTTCTTGCTTTTATTCCATTTAT
: >UniqueRead3_count1
: CTCGCCTCCTATTCTTCCCGCCACTTCTTGCTTGACCAACAACCTCAGCTCTCATCACTCACCTGG
: 目的是要看A檔案出現的內容是否也在B檔案中出現過
: 意思就是說如果A檔案的第一筆資料(資料內容)
: >UniqueRead1_count1(此為資料名稱)
: CTCGCCGTCGCAAACCCAAGCTGTCT (此為資料內容)
各位高手
我遇到類似問題,不過是要去除相同資料
主要問題爲
檢查title 只要相同,連同strings不保留
也就是
以A為主的資料 要檢查出裡面是否包含B資料中含title的資料
而C存取A不包含B的剩餘資料
有想過是使用 sort 與 雜湊
請問該如何著手撰寫程式
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 113.61.134.176
推 qulqul:如果是序列檔案的話可以用Bioperl模組處理 12/07 17:29
推 abliou:如果要移除重復序列 還是用降identity的軟體比較保險喔 12/08 09:08
→ qulqul:原PO消失了!? 12/10 17:52
看過Bioperl 稍微複雜了 後來還是用BLAST去除相似序列...
謝謝兩位提供意見^^
※ 編輯: aattsat 來自: 113.61.134.176 (12/22 11:24)