看板 RegExp 關於我們 聯絡資訊
使用語言:Python 3 使用環境:Windows 10 我想製作一個小工具,檢查公司所需的文章,其格式是否存在一致性 其中一個格式是,阿拉伯數字必須要加千分位, 例如:123,000元(正確)、123000元(錯誤) 我知道在這條件下,正確的數字格式應該是:r'\d{1,3}(,\d{3})*(\.\d)?' 可是我現在想要做的是反過來, 就是檢查時,遇到不符合的數字就要標記起來,再以人眼確認 以免誤修到原本就不是用來表示數值的阿拉伯數字,如西元年份 我想到的條件很簡單, 就是只要連續四個以上的阿拉伯數字但中間沒逗號就是有嫌疑,所以寫r'\d{4,}' 我想請教的是,有沒有辦法用一條表達式, 在不根據數字後面的文字是年份或貨幣判斷下, 把至少1900~2099年間的西元年份給排除掉 因為每篇文章要檢查的條件可能高達千種以上,每種都要用一條表達式檢查 數字的千分位格式只是其中一個規定, 所以我希望,不到最後一刻別用if條件判斷式去排除西元年份,以免可讀性變差 才想說看能否整合成一個表達式 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.110.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/RegExp/M.1584099163.A.D9E.html
CMJ0121: 先撈出來 再轉成 int 判斷可能比較快 03/13 20:12
art1: (?!(19[0-9][0-9]|20[0-9][0-9]))\d{4,} 03/17 09:01
art1: 測試資料有 1989、2010、1,358、4052 03/17 09:02
art1: 用這條規則可以篩選出最後的 4052 03/17 09:02
art1: (?!\d{1,3}(,\d{3})(,\d{3})?(\.\d)?) 03/17 09:09
art1: (?!((?=19|20)[0-9][0-9]))\d{4,} 加上前面那段就能得到4052 03/17 09:09
art1: 前一條規則是用來排除有千分位的數字,後一條排除西元年份 03/17 09:10
art1: 3(?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對 03/17 09:14
art1: (?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對 03/17 09:14
art1: (?!(?:(?:19[0-9]|20[0-2])[0-9])) 這樣排除西元感覺更好 03/17 11:35
liquidbox: 謝謝我晚點來試看看,原來還有(?!)(?:)層層套疊的用法 03/19 19:39
adrianshum: negative look ahead 能做到嗎?你的「連續4數字沒逗 03/26 11:20
adrianshum: 號」會miss掉逗號錯位的case 吧... 03/26 11:20
asglay: \d{5,}|(?:0[0-9]|1[0-8]|2[1-9])\d{2} 04/18 06:10