[問題] NCBI中human genome的資料

作者adu (^_^)

看板BioMedInfo

標題[問題] NCBI中human genome的資料

時間Fri May 1 19:21:44 2009

有兩個問題想請教版友雖然說已經把人類genome解開了，不過我看ncbi的資料庫中還是有很多gap http://0rz.tw/PBdEq (chr1) 如果我要下載chr1的genome資料，是否把這邊所有的都下載再拼在一起就好了？還有個疑問點是，好多的gap都是50,000的長度，不知為何會這樣(怎麼做出來的)？另外一個問題是，人類genome大約有多少是coding,多少是noncoding的部分我用很保守的估算 30000條基因*長的嚇死人的每條2k 所以30k*2k/3*10^9 人類coding的部分最多佔20% 請問這樣合理嗎？ PS:有看到佔1~1.5%的說法，不過不知道這個估計值有沒有包含非a.a但有function的序列以及有沒有把還沒有定序的gap考慮進去請版友們指教^^ -- 37m﹡ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.104.5.233

推 auymle:NCBI上有已經組好的可以下載你從ftp找應該有 05/01 20:13

→ huggie:對啊，這不知道是什麼？為甚麼沒組好？ 05/01 20:27

→ huggie:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/ 05/01 20:29

→ adu:請問Celera、HuRef和ref有甚麼樣的差別呢？ 05/01 21:10

→ adu:檔案大小都相近，其中ref的contig有49條，我文章內的只有39條 05/01 21:11

→ adu:會不會有重複算的? 謝謝回覆:) 05/01 21:11

→ adu:另外mfa在readme中有說是masked***** 不太懂他masked的意思 05/01 21:12

推 huggie:masked通常指序列中low complexity region 用 N 或 X 遮掉 05/01 22:00

→ adu:原來如此！所以如果單看序列的完整性，fa會含有比較多?! 05/01 23:51

→ adu:我查了celera，好像是一種alignment的方式，不過那三種詳細的 05/01 23:52

→ adu:分別還是不太清楚。謝謝回應:D 05/01 23:52

推 ChelseaFC:若是指組成contig的read被masked的話，就是指遮蔽一些已 05/11 21:45

→ ChelseaFC:知的重複片段，好加強alignment及assembly的速度(?) 05/11 21:46