[請問] 有高效率將大量中文字串轉成HEX的軟

作者shala (沙羅)

看板EZsoft

標題[請問] 有高效率將大量中文字串轉成HEX的軟

時間Wed Jan 16 14:42:26 2019

我有一些文字檔，裡面都是中文字每個檔案大約都有100萬行想要把內容全部轉成UNICODE的HEX 例如「中」變成「4E2D」這個轉換不困難，但行數高達100萬行左右是否有每個檔案能在10秒內完成轉換的高效率程式？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 173.213.89.40 ※ 文章網址: https://www.ptt.cc/bbs/EZsoft/M.1547620949.A.DC5.html

→ spfy: 10s連檔案都還沒讀完吧?01/16 15:19

10s太難的話就改30s吧。希望能盡量快。

→ kobe8112: 轉換完放在RAM跟還要存到硬碟內也不一樣01/16 15:34

是要存在硬碟

→ kobe8112: 不對啊，你文字檔原始的編碼格式是啥?01/16 15:45

原始編碼為UNICODE

推 enthos: www.di-mgt.com.au/hexdump-for-windows.html01/16 15:56

試用後覺得不合用。減為20萬行還是花了以分鐘計算的時間 ※ 編輯: shala (173.213.89.40), 01/16/2019 16:58:52

→ kobe8112: 你是要給人看而不是程式要使用的話，01/16 17:09

→ kobe8112: notepad++就有HEX-EDITOR這個外掛模組了，或者使用01/16 17:10

→ kobe8112: UltraEdit這類編輯器01/16 17:11

→ kobe8112: 應該說所有文字編輯器，支援HEX MODE都可以用01/16 17:12

謝謝，不過轉換的目的不是要看，而是要給其他程式使用 ※ 編輯: shala (173.213.89.40), 01/16/2019 17:18:47

→ kobe8112: 給其他程式用，不需要轉啊，程式只要可以讀檔案，直接開01/16 17:28

→ kobe8112: 檔起來不就是你要的答案了?QQ01/16 17:29

說起來有點複雜，總之是需要轉換這一個步驟的。我也希望能省略這一步，但目前還解決不了QQ ※ 編輯: shala (173.213.89.40), 01/16/2019 18:46:56

推 rick65134: 感覺就是其他程式不是原PO開發的且只吃HEX01/16 19:12

→ rick65134: 自己寫程式最快啦這麼單一又大量的功能值得寫程式01/16 19:13

我有列入未來計畫

→ kobe8112: 還是不太了解，我從文意推測你是用Windows，假設今天你01/16 19:40

→ kobe8112: 開了一個記事本，輸入「中」後存檔，編碼選unicode，01/16 19:41

→ kobe8112: 實際儲存的資料就是4Bytes: 0xFF 0xFE 0x2D 0x4E01/16 19:42

→ kobe8112: 那你希望的這個程式，轉換完以後檔案的raw data是啥呢?01/16 19:42

→ kobe8112: Hex: FF FE 34 00 45 00 32 00 44 00 共10Bytes?01/16 19:45

簡單說就是轉換後的文字檔打開是顯示4E2D這個字串。我要把這個字串拿去餵其他程式 ※ 編輯: shala (173.213.89.40), 01/16/2019 20:15:42

→ rick65134: 每行100中文字一百萬行 python3.7+ramdisk 40秒01/16 20:14

謝謝參考數據，硬碟確實是一個關卡QQ ※ 編輯: shala (173.213.89.40), 01/16/2019 20:18:33

→ kobe8112: 所以4E2D存檔要用什麼編碼?一樣Windows上所謂的unicode 01/16 20:32

→ kobe8112: (UCS-2-LE)嗎?還是需要再轉其他編碼?這會影響速度 01/16 20:33

→ kobe8112: 能不能傳個範例檔來測試測試XD01/16 20:50

轉換後的檔案我還是用同一種編碼，檔案略大一點，但就圖個方便。範例檔...其實用字典生成就很類似了。我的檔案會有一些大五碼以外的中文字。

推 rick65134: 你有python3嗎?01/16 21:15

有

→ kobe8112: 扣除BOM，檔案大小應該會變4倍01/16 21:32

哈哈，我改用UTF-8試試看好了

→ kobe8112: 所以你要餵的那個程式，確定可以吃多種編碼格式? 01/16 23:28

其實不行，所以真的很想換掉那個程式QQ

→ kobe8112: 你的需求，轉換後若用UTF-8，撇開Windows會加BOM來看， 01/16 23:28

→ kobe8112: 跟用ASCII編碼是一樣的大小，也與來源檔大小相同 01/16 23:30

→ xvid: 未實測速度 Akelpad + HexSel plugin 01/17 10:41

→ xvid: 剛實測一下有點lag 01/17 10:46

我再找更好的硬體run看看

推 netio: 試下我寫的測試30MB文字檔(Unicode)不含讀寫約1秒左右01/17 20:18

→ netio: http://tinyurl.com/y9c8t6v201/17 20:19

→ netio: 在命令列模式下使用 01/17 20:20

感謝，效率提升很有感！是否因為演算法有所改良？若「不轉換」斷行符號會影響效率嗎？因為轉換後的檔案仍需保持行數不變。

→ kobe8112: 你同一個檔案編碼方式不一致，軟體根本無從判斷啊01/18 09:07

推 netio: 用查表法應該是最快了事先會吃1G的記憶体理論上可支持01/18 11:55

→ netio: 500MB的文字檔http://tinyurl.com/ya4gsoxf01/18 11:55

→ netio: 斷行符號會影響一點點效率 01/18 11:57

感謝！斷行符號不太影響效率的話，可否開發一個保持斷行的版本？另外我發現您的程式會將字串兩兩對調，以UTF-8的「一二」為例，轉換前的HEX：E4 B8 80 E4 BA 8C 轉換後的字串：B8 E4 E4 80 8C BA 能改為以原順序輸出嗎？

→ kobe8112: Mapping table只需要一個型別uint16_t 大小256的陣列吧?01/18 12:52

→ kobe8112: 然後前面講錯，依原PO需求的UCS-2轉UTF-8大小變2倍才對 01/18 12:53

推 netio: 是256沒錯另增加字元順序選項http://tinyurl.com/yaaakywe 01/18 16:09

感謝！能否再增加不轉換斷行符號的選項？困難的話我自己再加工替換

推 rick65134: 效率提升的問題應該是因為python本身就不是讓你拚速度01/18 16:24

→ kobe8112: UTF-8沒有BE LE的區別耶... 01/18 17:05

推 netio: 內定就是不轉換了還是你要多個選項?不支持Utf8喔 01/18 17:42

原來如此，我以為也支援UTF8。那沒問題了，非常感謝！ ※ 編輯: shala (45.56.160.202), 01/18/2019 19:55:44

推 Bencrie: 你是要存成 source code 喔？vim 的 xxd -i 01/20 23:39