作者mephiliu (Mephi)
看板Soft_Job
標題Re: [新聞] 戶政系統大塞車 內政部請IBM抓錯
時間Tue Mar 18 11:35:48 2014
來回一下推文, 不過幾行講不完, 所以用回應的
先介紹一下我的背景, 其實我完全沒有學過任何程式語言.
不過我自己當偏作業系統與硬體的工程師以及PM有十幾年的經驗, 這個案子用到的
主機以及相關軟體, 有很大一部份是我很熟悉的. 剛好最近又有朋友在問這事, 就
手癢來回一下.
另外, 我以前曾在環安達老闆手下做過四年, 最後因為意見不合離職. 不過目前我是
沒有特定立場的.
特別來回只是對本案有興趣. 如果對弊案有興趣的話, 我記得有個朋友正在收集公家
機關標案與得標廠商的金額資料, 改天我去問問他網站做好沒.
以下先列出網友的回應, 太沒意義的就不說了.
→ Lordaeron:會認識到資拓去?我是存疑的. 03/16 20:30
→ freeunixer:唉,你太淺了,這種話就麻煩你別在說了. 03/16 20:57
→ freeunixer:學界國科會資策會隨便拉,線就上百條. 03/16 20:58
→ freeunixer:別的不說,打從中央在公元前搞軟體工程搞沒出來,iii接去 03/16 20:59
→ freeunixer:這關係就可以從兩千多年講起... 03/16 20:59
→ freeunixer:難不成真有人以為在台灣,學界,公家跟業界還有護城河? 03/16 21:00
freeunixer兄有點憤青啊~公家、學界跟業界當然有非常大的鴻溝. 如果你去開一家
也進入業界, 就會發現大家的護城河有多寬了.
資拓雖然說是資策會工研所出來的, 不過他合併的宏瞻之前可是IBM 主導的公司. 在
我所屬的業界(我稱之為IBM R6代理商與經銷商業界), 常常都是一整個team的跳動
要認識資拓的人其實也沒那麼難. 不過我跟他們打交道時好像總是在吵架
推 ggg12345:mephiliu的分析很有道理也很好.但這問題依然是透過socket 03/16 21:12
→ ggg12345:連線,連線數當然涉及queue buffer數.驗收的公司知道過200 03/16 21:14
→ ggg12345:會當,但沒說這是已知的BUG,還是故意設限.出問題的報導都 03/16 21:17
→ ggg12345:集中在跨區身份證這個最敏感的項目,這項是由內政部統一發 03/16 21:20
→ ggg12345:出的,顯然快不起來的在此,而非各地戶政所.跨區調件更新應 03/16 21:25
→ ggg12345:是集中發號施令全部都經過中央才生效,才會造成延遲又超載 03/16 21:31
感謝評價. 其實狀態大概是這樣, 只要一到達200-250 的門檻, AP Server就會......
變成殭屍<---這是我自己的說法. 就是process和thread 看起來都還在, 但是都不會
動, 非得要重新下上AP Server 不可. 我聽說戶政司那邊是一有問題就重新開機, 該
系統主機重新啟動一次大概要半小時以上......
另外, 其實沒有驗收的公司. 只有在合約內要求要有第三方驗證而已. 而驗證公司如
DTC、SGS等本來就不會有我們這種類型的工程師來看相容性問題, 最多就是知道現象
(250人以上會當機) 而已. 至於loading 這方面的報告我是存疑的. AIX 從5.3 開
始就會大量使用閒置的記憶體來當filesystem cache, 如果用工具測量好像記憶體使
用量很高, 如果用vmstat來看就會發現其實使用率很低.
至於bug的部分, 其實這個問題真的是一個很傳統的bug, WLS 的Java 1.6 跑在AIX
上就很容易發生. 其實連IBM自己的WAS 跑起來也是一狗票問題, 但是這都是要碰到
才能解. 一來不曉得問題點發生在OS端還是AP端, OS端要找AIX 的patch, AP端要去
找Weblogic的patch;二來不關是Oracle或IBM 在這一塊的patch 沒有數千也有數百,
每一個有關的patch解決的問題少則一個, 多到上百成千的都有, 的確很難在很事前
的事前事先預防. 這就只能靠嚴謹的測試階段來發現問題了.
不過, 我發現軟體開發類的PM好像比較著重在life cycle management與成本控管上,
對於我們很重視的相容性以及serviceability好像都不是很care, 不曉得版上各位
對這部分有沒有什麼心得?
推 kimkao:為何我感覺g老師好像腦袋裡已經有一套完整的系統架構圖? 03/16 21:56
→ kimkao:可以放個concurrency view & deployment view參考嗎? 03/16 21:57
→ kimkao:這整個討論串整個都在瞎子摸象阿!!! 03/16 21:58
第一, 這種東西只有資拓宏宇有, 我想連戶政司承辦人那邊應該都找不到, 老實說,
就算我有也不敢放上來. 這些都是要簽署保密協議的.
推 luciferii:我是覺得一般狀況外的人來猜都不會猜得這麼牛頭不對馬嘴 03/16 22:04
推 kimkao:這整串讓我想到大陸之前在炒他們的火車票售票系統
03/16 22:04
→ kimkao:也是一群人在瘋狂罵系統開發團隊然後給了一堆所謂的解法 03/16 22:06
→ kimkao:但實際上是根本沒人把真實設計給拋出來看拿出來想 03/16 22:06
→ kimkao:事實上也不可能真的拿出來,萬一被網民給解決了 03/16 22:07
→ kimkao:那原開發團隊也就不用玩了!!! 03/16 22:07
坦白說, 這是不可能的.
如果你的意思是解bug, 我一群從以前開始的同事每個人都能在30分鐘內發現問題的
癥結, 然後一天內解完到起碼事情可以好好做不會當機.
不過這套系統的輔助系統大概有快30個, 不提造字啦、ESB啦、DW、BI、BCP之類的,
還有Storage Management、PPRC、LM、SIEM、SSO等各種輔助系統. 現況是都很有問題,
前段時間我評估了一下, 光把HA修好我大概就得要花五個半月的時間. 這跟能力無關,
跟接觸的領域有關.
推 ggg12345:感覺出題要求的是X安,出狀況去監控幫忙的也是X安,有解乎? 03/16 22:15
請教x安是?
推 ggg12345:如果是BEA-000337,照網文找是老問題,就是db處理慢,queue 03/17 00:09
→ ggg12345:積長,線程長多變超載.新系統可跨區更新取件,多擠在內政部 03/17 00:18
→ ggg12345:網上"老瓶装新酒,一次完整的应用调优"早說出其中問題了. 03/17 00:20
BEA-000337是現象, 現象後面的分析與原因比較重要. 我會建議直接去找Metalink
看看. 大陸的網文一般不具參考價值.
推 ggg12345:當然是不知情,才要問嘛.可跨區申報更新取件是這月才公布. 03/17 00:28
→ ggg12345:疑問是舊系統若照新加功能的這種集中號令控管仍然會管用? 03/17 00:32
跨區申報取件?是指可以跨區領身分證嗎?這個去年就有了.
至於經過中央這回事, 其實除了單純處理文字的部分以外, 只要有影像的部分全部要
去中央處理. 因為只有中央有影像伺服器.
→ freeunixer:乾脆老師扛一箱金牌生啤到台北來,我找人來說明好了(~誤 03/17 00:36
→ Lordaeron:哪不如你發一篇好好的說明好了. 如何? 03/17 00:37
→ ggg12345:管制理念架構不好又加上爛code,小問題演成輪流錢坑,能聽? 03/17 00:43
推 luciferii:freeunixer好衰,誠心要解惑還被嫌不夠格XD 03/17 00:50
→ freeunixer:那沒我的事了,我繼續去旁邊玩沙好了 (~默 03/17 00:57
→ ggg12345:此串原貼是freeunixer,報導說明應觀其背景動機是lu大提醒 03/17 01:03
推 asdfghjklasd:阿就是人的問題不是嗎? 03/17 01:44
戶政系統是全國資料最核心的系統, 我想裏面跟大家想像的有非常大的不同, 不是
只有申請戶口名簿跟領身分證而已. 最麻煩的地方是要跟其他系統做資料交換跟驗證
比方說要給金資中心做資料參照, 或者是要給領事事務局、移民署、勞委會提供資料
以往大家都是用自己寫的script做線上查詢或者是batch的資料轉移, 這一回主要有一
部分在做ESB, 提供給其他政府部門一個統一的界面. 另外的部分我猜應該是有做三等
親屬的系統. 當然, 有關軟體開發的事情, 版上任何人都比我有資格說明, 就不獻醜
了. 我也想多聽聽看各位的想法, 讓我能很快學習我不懂的部分.
說是人的問題當然是沒錯. 以我自己的立場來說, 我會覺得主要是PM的問題.
起碼我自己當PM時, 這一類的風險規避是我最重要的課題. 不堪上線的系統我是絕不
可能讓他上線的. 一旦上線, 不要說處理問題, 光申請重開機就會令人暈倒.
→ jk47tai:就個人聽到,版本不合,是IBM確認的(2014),然後2013年 03/17 09:36
→ jk47tai:就知道又這問題。 03/17 09:36
據說前年(2012)有從現有設備撥測試機出來, 聚碩裝機時就有很多問題. 這個我再去
偷偷打聽一下好了.
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 1.34.160.27
推 kofi0916:謝謝說明 03/18 12:27
→ Lordaeron:BEA-000337的起因很多,不能一概而論是JVM VS WL的問題 03/18 12:58
→ Lordaeron:再來戶所應該沒造字問題了吧都用CNS的字了哪來造字? 03/18 12:59
推 saitoh:CNS每年都會多新字 而且CNS是交換碼 還要轉到unicode去 03/18 14:36
→ Lordaeron:已經十萬字了你還要加什麼?CNS本身就有UNICODE的對照表 03/18 14:43
→ Lordaeron:以及字型了. 03/18 14:43
推 saitoh:2008 09 10 11都有新造字,網路上也有新造字申請流程 03/18 15:09
→ saitoh:要不要加可不是你我可以決定的 03/18 15:09
→ Lordaeron:er...今年是2014年了!! 03/18 16:00
→ Lordaeron:異體字字典第五版--教育部國語推行委員會,字數106,230 03/18 16:04
→ Lordaeron:2004年的產物,前一個統計是1990年的漢語大字典:54,678 03/18 16:05
→ jk47tai:不合的是Weblogic/Informix/Cognos AIX,之後當CD,不掛了 03/18 16:14
推 ggg12345:謝謝詳盡的說明.資安是一定介入但也會帶來奇怪不必的要求 03/19 00:21
推 ggg12345:看新公布的規章,很多程序改了,背後應該有很多驗證檢核.資 03/19 07:59
→ ggg12345:料庫只讀的查詢部份是否要及時更新?及時反應現況就有輕重 03/19 08:04
→ ggg12345:緩急之分.例如警方對etag想立即知道某車在何處,但民眾卻 03/19 08:06
→ ggg12345:要幾十小時之後才知,這怎麼做?就會造成很大的負擔,搞資安 03/19 08:09
→ ggg12345:的會無限上綱但又不想付該有的代價,最後就變爛灘. 03/19 08:11
→ ggg12345:買超跑當警車巡邏就是一例,遍佈崗哨快速通信就涉及架構. 03/19 08:17
→ poiu1234:樓上語畢 哄堂大笑 03/19 08:43
推 luciferii:有沒有發現你為了"有Bug"這一看就懂的2字解釋那麼大篇 03/19 17:05
→ luciferii:g老師還是完全跳過,自顧自地分析肯定是AP code太爛... 03/19 17:06