[問題] EST的資料

作者adu (^_^)

看板BioMedInfo

標題[問題] EST的資料

時間Fri May 15 10:10:20 2009

請問版友，我想要擷取EST中，兩端UTR的序列於是從NCBI抓了全部unigene的檔案 ftp://ftp.ncbi.nih.gov/repository/UniGene/Homo_sapiens/ 裡面有兩個600mb跟900mb(後者還沒解壓縮)檔案我開不起來>"<(2G的小筆電) 想請問我在這邊找EST兩端的UTR資料正確嗎...? 如果是對的，我會想辦法生出電腦... 謝謝版友的回應:) -- 37m﹡ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.25.86

→ hgsfhevil:可是你有什麼辦法告訴別人,est兩端的部分是utr? 05/15 10:58

→ hgsfhevil:你大概是用start codon和stop codon去找吧,但是我比較 05/15 10:59

→ hgsfhevil:建議,直接從基因體序列的注解去找utr部分,我沒試過用此 05/15 11:01

→ hgsfhevil:法,所以我無法判斷對錯,但是我感覺你這樣去做,好像是ORF 05/15 11:02

→ hgsfhevil:可是orf也不是找utr的方法,so 交給其他專家解答吧 05/15 11:02

推 huggie:如果我跟 hajimels 版友沒有學錯的話，Biomart 可以找 05/15 11:27

→ huggie:參考第50篇，然後attribute部份改選 5' 跟 3' UTR 05/15 11:28

推 huggie:至於開大檔案，電腦不是問題，是要有能看檔案部份的工具 05/15 11:36

→ huggie:例如 http://www.steve.org.uk/Software/less/ 05/15 11:37

→ huggie:不過要會用命令列 05/15 11:38

→ adu:嗯恩謝謝版大的回答，我主要是要先看看file裡面的資料型態 05/15 16:41

→ adu:是不是序列，再思考下一部該怎麼完成:) 05/15 16:42

→ windincloud:EXT還是要先做orf的比對後才會知道哪邊是utr 05/15 20:42

→ windincloud:建議是由人類gene model中標記出有實驗證的gene 去抓 05/15 20:44

→ windincloud:會較為準確，且話說許多utr都是推論出來的結果 05/15 20:45

→ windincloud:我第一行打錯是est :p 05/15 20:46

→ adu:謝謝版大們的協助，終於解決了:D 05/19 11:55

→ huggie:所以請問你最後怎麼做呀？ 05/19 13:45

→ adu:我沒有去避免掉coding的部分..是直接抓cDNA的資料 05/20 00:44

→ adu:之前會想避免是因為我想的方法不適用在coding的部分， 05/20 00:45

→ adu:所以想要把coding的部分去掉。不過現在先做做看全部的cDNA... 05/20 00:45

→ adu:資料我是從NCBI->EST->Search for full length cDNAs 05/20 00:48

→ adu:http://www.ncbi.nlm.nih.gov/FLC/getmgc.cgi 05/20 00:49

→ adu:去抓homo sapiens completely cDNA的序列。(27675筆) 05/20 00:50