看板 BioMedInfo 關於我們 聯絡資訊
請問版友,我想要擷取EST中,兩端UTR的序列 於是從NCBI抓了全部unigene的檔案 ftp://ftp.ncbi.nih.gov/repository/UniGene/Homo_sapiens/ 裡面有兩個600mb跟900mb(後者還沒解壓縮)檔案我開不起來>"<(2G的小筆電) 想請問我在這邊找EST兩端的UTR資料正確嗎...? 如果是對的,我會想辦法生出電腦... 謝謝版友的回應:) -- 37m﹡ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.25.86
hgsfhevil:可是你有什麼辦法告訴別人,est兩端的部分是utr? 05/15 10:58
hgsfhevil:你大概是用start codon和stop codon去找吧,但是我比較 05/15 10:59
hgsfhevil:建議,直接從基因體序列的注解去找utr部分,我沒試過用此 05/15 11:01
hgsfhevil:法,所以我無法判斷對錯,但是我感覺你這樣去做,好像是ORF 05/15 11:02
hgsfhevil:可是orf也不是找utr的方法,so 交給其他專家解答吧 05/15 11:02
huggie:如果我跟 hajimels 版友沒有學錯的話,Biomart 可以找 05/15 11:27
huggie:參考第50篇,然後attribute部份改選 5' 跟 3' UTR 05/15 11:28
huggie:至於開大檔案,電腦不是問題,是要有能看檔案部份的工具 05/15 11:36
huggie:例如 http://www.steve.org.uk/Software/less/ 05/15 11:37
huggie:不過要會用命令列 05/15 11:38
adu:嗯恩 謝謝版大的回答,我主要是要先看看file裡面的資料型態 05/15 16:41
adu:是不是序列,再思考下一部該怎麼完成:) 05/15 16:42
windincloud:EXT還是要先做orf的比對後才會知道哪邊是utr 05/15 20:42
windincloud:建議是由人類gene model中標記出有實驗證的gene 去抓 05/15 20:44
windincloud:會較為準確,且話說許多utr都是推論出來的結果 05/15 20:45
windincloud:我第一行打錯 是est :p 05/15 20:46
adu:謝謝版大們的協助,終於解決了:D 05/19 11:55
huggie:所以請問你最後怎麼做呀? 05/19 13:45
adu:我沒有去避免掉coding的部分..是直接抓cDNA的資料 05/20 00:44
adu:之前會想避免是因為我想的方法不適用在coding的部分, 05/20 00:45
adu:所以想要把coding的部分去掉。不過現在先做做看全部的cDNA... 05/20 00:45
adu:資料我是從NCBI->EST->Search for full length cDNAs 05/20 00:48
adu:去抓homo sapiens completely cDNA的序列。(27675筆) 05/20 00:50