精華區beta CSSE 關於我們 聯絡資訊
如果以關聯式資料庫的觀點來看 column之間的關係是FD(functional dependence)的關係 用一種粗糙的白話文來解釋 也就是個體屬性間的關係 而row之間對應的是個體之間的關係 因此你存的如果是一筆一筆的資料 是應該以row方式來存的 當然 妳也可以把gene的feature視為是gene的屬性 但在ER model的觀點來看 到最後轉成關聯式資料庫上面的column 他的屬性一定會表示成feature1, feature2, .... featureN這種方式 屬性一定為N個個數 也就是說 如果你的屬性不定個數 在ER上面會將feature獨立出來變成一個個體(或是多值屬性) 而feature與gene個體之間有一對多的關係(多值屬性處理方式跟個體一樣) 這種情況feature就會被獨立出來成一個表格了 而不是被放在column上面 另外一方面 有關於生物資訊的data 一般來說 處理生物資訊的data 可以分成兩種方式 flat-file based & DBMS based 在MySQL部分 emsemble有提供出schema & data 可以參考看看他們定出來的schema 他們的data也很完整 說不定連你自己的data都不用抓了 (不過你的資料可能是跟cancer有關的 這部份他們就比較缺乏) 如果用flat file的話 例如以ncbi提供出來gene的資料 可以利用bioperl去存取這些資料 裡面提供非常多的API 舉凡抓feature這些功能都有 bioperl相關的程式還包含了biojava..等等 ※ 引述《micklin (mick)》之銘言: : 最近在處理基因序列, 資料的儲存一直讓我很頭痛, : 在傳統資料處理時, 我都把column對應到feature, 把row當成一筆資料. : 但是現在的問題是MySQL不能處理2000個column (colon dataset), : 更別說另一個五萬多個基因的dataset了. : 轉成文字模式再用UltraEdit處理, 在4096個字元後就強迫斷行了 = = : 雖然可以自己用程式接起來就是了.... : 所以我的問題是, : 在處理行與列的時候有沒有什麼不同呢? : 為什麼我們平常處理文字檔或資料庫的時候, : 會偏好row很多而不是column很多? : 是檔案結構的問題還是什麼地方的限制呢? : 謝謝回答. -- http://www.im.tv/vlog/personal.asp?FID=&Memid=254442 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.109.169.200 ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:46) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 10:47) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:52) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 11:55) ※ 編輯: seagal 來自: 140.109.169.200 (08/18 14:17)
micklin:謝謝您的回答 08/18 16:25
micklin:目前的資料是未公開的cancer基因資料, 所以沒辦法用您建 08/18 16:43
micklin:議的方法去做.... 08/18 16:43
※ 編輯: seagal 來自: 140.109.169.200 (09/22 09:36)