推 os653: 是的,檔案名稱差異很大,我試著把所有文字部分抓出來比對 04/01 05:52
→ os653: 五個檔案的文字部分(不重複)大概都是1xx個 04/01 05:53
→ os653: 但是這五個檔案完全相同的文字部分只有2x個 04/01 05:54
→ os653: 資料量並不大,但是看來文字部分的歧異很大 04/01 05:56
→ os653: 所以才考慮一份 Excel 寫一個 parser,但這感覺又有點蠢... 04/01 05:56
→ os653: 我在想能不能讓 parser 能讀某種定義檔 04/01 06:04
→ os653: 這樣可以每個 Excel 寫一份定義檔就好,parser 維持不變 04/01 06:04
→ os653: 但定義檔要怎麼設計就又沒概念了,不知道有沒有現成的可抄 04/01 06:05
推 Yshuan: 我可能會找能吃EBNF的paeser吧 04/01 09:50
推 os653: 看了一下EBNF,好像不是我想要的Q_Q 04/01 17:15
推 largesperm: 自己建 dict mapping 一開始當然會比較辛苦 04/01 21:57
→ largesperm: 但是久了 dict 就很豐富了 "珍奶" "珍珠奶茶" 自動 04/01 21:57
→ largesperm: mapping 成為 珍奶 04/01 21:58
→ largesperm: 第一步先 mapping 第二部就可以直接 parse 了 04/01 21:58
→ largesperm: 每一個 excel 都可以套用同一個 parser 04/01 21:59
→ largesperm: if itemName == "珍珠奶茶": itemName = "珍奶" 04/01 22:01
→ largesperm: 讀進來的時候順便檢查名稱 有找到就直接改掉 04/01 22:01
→ largesperm: 最後你就可以統整了 04/01 22:01
→ largesperm: if itemName in dict.keys(): itemName = dict[itemN 04/01 22:02
→ largesperm: ame] key 是改名前 value 是改名後 04/01 22:03
→ largesperm: 1xx個 建 dict 應該不會花太久時間 04/01 22:04
推 os653: 好吧,看來也只能這樣了,一個一個慢慢加 04/02 00:50