Re: [問題] 行與列

作者seagal (會長繞跑了)

看板CSSE

標題Re: [問題] 行與列

時間Fri Aug 18 10:42:50 2006

如果以關聯式資料庫的觀點來看 column之間的關係是FD(functional dependence)的關係用一種粗糙的白話文來解釋也就是個體屬性間的關係而row之間對應的是個體之間的關係因此你存的如果是一筆一筆的資料是應該以row方式來存的當然妳也可以把gene的feature視為是gene的屬性但在ER model的觀點來看到最後轉成關聯式資料庫上面的column 他的屬性一定會表示成feature1, feature2, .... featureN這種方式屬性一定為N個個數也就是說如果你的屬性不定個數在ER上面會將feature獨立出來變成一個個體(或是多值屬性) 而feature與gene個體之間有一對多的關係(多值屬性處理方式跟個體一樣) 這種情況feature就會被獨立出來成一個表格了而不是被放在column上面另外一方面有關於生物資訊的data 一般來說處理生物資訊的data 可以分成兩種方式 flat-file based & DBMS based 在MySQL部分 emsemble有提供出schema & data 可以參考看看他們定出來的schema 他們的data也很完整說不定連你自己的data都不用抓了 (不過你的資料可能是跟cancer有關的這部份他們就比較缺乏) 如果用flat file的話例如以ncbi提供出來gene的資料可以利用bioperl去存取這些資料裡面提供非常多的API 舉凡抓feature這些功能都有 bioperl相關的程式還包含了biojava..等等 ※ 引述《micklin (mick)》之銘言： : 最近在處理基因序列, 資料的儲存一直讓我很頭痛, : 在傳統資料處理時, 我都把column對應到feature, 把row當成一筆資料. : 但是現在的問題是MySQL不能處理2000個column (colon dataset), : 更別說另一個五萬多個基因的dataset了. : 轉成文字模式再用UltraEdit處理, 在4096個字元後就強迫斷行了 = = : 雖然可以自己用程式接起來就是了.... : 所以我的問題是, : 在處理行與列的時候有沒有什麼不同呢? : 為什麼我們平常處理文字檔或資料庫的時候, : 會偏好row很多而不是column很多? : 是檔案結構的問題還是什麼地方的限制呢? : 謝謝回答. -- http://www.im.tv/vlog/personal.asp?FID=&Memid=254442 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.169.200 ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:46) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:47) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:52) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:55) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 14:17)

推 micklin:謝謝您的回答 08/18 16:25

推 micklin:目前的資料是未公開的cancer基因資料, 所以沒辦法用您建 08/18 16:43

→ micklin:議的方法去做.... 08/18 16:43

※ 編輯: seagal 來自: 140.109.169.200 (09/22 09:36)