光看這前三列的raw data, 就發現到一個問題:
Drug_Name 下有一欄是 MEFENAMIC ACID , 中間有個空白字元.
這個空白字元很可能被當成分隔欄位字元, 如此一來parser一定會誤判.
3.xG, 7千萬筆以上的raw data當中, 究竟有多少這種格式的raw data?
恐怕得先用些工具程式掃過一遍, 搞清楚狀況後再對症下藥才行.
不過, 或許沒那麼嚴重啦. 我猜分隔欄位字元可能是跳格字元'\t', 而
Drug_Name 裏允許空白字元. 只要精確地告知parser分隔欄位一定要用
'\t', 而不涵蓋空白字元的話, 或許就能夠順利匯入.
※ 引述《shga (我愛慢慢跑)》之銘言:
: ID AGE SEX Drug_Code Drug_Name Drug_dose Week ....
: 84222 27 F B020932221 LIDOCAINE 1 2
: 84222 27 F N001043100 MEFENAMIC ACID 2 2
: 84222 27 F B020932221 LIDOCAINE 1 4
: 目前為分析藥物的相關資料,資料類型如上述。
下略..
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.104.190.247
※ 編輯: bobju 來自: 59.104.190.247 (05/17 22:03)