※ 引述《brasil (巴西小子)》之銘言:
: 大家好~
: 小弟最近在研究NGS方面的問題
: 因為跟先前用過的資料庫有點不太一樣
: 所以有一些基本的問題想要請教各位
: ===========================================================================
: 目標是想要進一步的分析NGS所定序出來的序列
: 1.請問我要如何下載序列
: 我知道在SRA資料庫下載的序列都是.sra檔
: 剛剛稍微研究一下可以利用fastq-dump這個執行檔來轉換成.fastq檔
: 假設我想要研究的主題是人類的whole genomic DNA
: 請問我要如何下載到這些序列
: (因為我在SRA裡只看的到ACCESSION number,但我不知道這些number是什麼物種)
理論上可以根據ACCESSION number 反查到物種名稱啦~
: 2.在.fastq檔裡有一個欄位是spot,請問這是代表什麼意思?
: 3.在.fastq檔裡有很多條序列
: EX:
: @SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是說明是編號&取得到的長度
: ATCG......
NGS所得到的SEQ
: +SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是跟第一行的ID是一樣的
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIIII...
序列每一個NT的Quality 不同的符號有不同的代表意義
簡言之:
FASTQ是四行為一組
第一列&第三列理論上是一樣的東西,要做的是這兩行的ID是否一樣
第二列為NGS序列本身
第四列則為序列中每個相對應的NT的Quailty
: @SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: ATCG......
: +SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIII...
: @SRR096072.lite.sra.3
: .
: .
: @SRR096072.lite.sra.4
: .
: .
: @SRR096072.lite.sra.5
: .
: .
: .
: 請問我該如何讀這些序列?
: 是@SRR096072.lite.sra.1 繼續接 @SRR096072.lite.sra.2
: 繼續接@SRR096072.lite.sra.3 一直下去這樣嗎?
: 抱歉問題有點多,有勞各位了!!
其它就給其他強者說明啦~
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 203.67.104.199