精華區beta CSSE 關於我們 聯絡資訊
※ 引述《micklin (mick)》之銘言: : 最近在處理基因序列, 資料的儲存一直讓我很頭痛, : 在傳統資料處理時, 我都把column對應到feature, 把row當成一筆資料. : 但是現在的問題是MySQL不能處理2000個column (colon dataset), : 更別說另一個五萬多個基因的dataset了. : 轉成文字模式再用UltraEdit處理, 在4096個字元後就強迫斷行了 = = : 雖然可以自己用程式接起來就是了.... : 所以我的問題是, : 在處理行與列的時候有沒有什麼不同呢? : 為什麼我們平常處理文字檔或資料庫的時候, : 會偏好row很多而不是column很多? : 是檔案結構的問題還是什麼地方的限制呢? : 謝謝回答. 比較技術性的解法,是使用 data_index, feature_index, feature 三個欄位, 並設定 index 在 data_index 欄位上。 電腦系統本來就傾向處理大量資料,而不是複雜資料,單是要處理複雜資料,就 會需要建立複雜的輸出入介面,大大地減低電腦對於複雜資料的處理能力。 如果不需要建立複雜的介面,也就等同於可以拆解資料了。 而且,避開極端性狀況來設計通用系統,原本就是一個有效降低軟體開發困難、 增加系統效能的好方法。這幾乎是所有便宜好用的系統的共同設計理念。 所以無論就介面、效能、開發上,多數資料系統都會傾向以處理簡單資料 (欄位 較少) 而不是複雜資料 (欄位較多) 為主要目的,並適度加上限制。 就你的情況,使用二進位資料檔,寫程式來儲存處理,其實是比較適合的做法, 要有幾個欄位都隨你。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.222.173.30
micklin:謝謝您的回答 08/18 16:25