看板 Soft_Job 關於我們 聯絡資訊
目前有需求是要監控系統資訊跟服務 並且做警報(Email通知) 請問各位大大 有沒有推薦的 系統跟服務監控 解決方案? 需求有以下幾點: 1.監控基本的系統資訊項目(CPU, Memory, Disk usage, Disk IO) 2.監控項目需要比較複雜的定義(例如CPU連續5分鐘平均 > 90) 3.監控服務是否還在運作(簡單的探測一下API) 4.監控某個RESTful API的狀態(例如系統授權是否即將到期) 5.監控的服務項目需要discover(打某個API取得目前有哪些instance) 6.符合警報後寄送email通知 7.Email通知需要支援群組設定(例如TechSupport群組, 客服群組, Sales群組) 8.通知規則需要支援複雜規則(一個period內的警報只寄送一次, 警報後特定條件內不再 發mail) 9.需要同時支援Windows跟Linux平台(系統資訊採集Windows透過WMI, Linux透過別的) 10.需要能夠單機執行(非一個master搭配agent做群集監控) 原本的想法是自己用熟悉的語言(Java or GO)刻一個簡單的程式 但發現要做到那些規則的定義跟configuration 包括Email通知規則 好像也不是這麼簡單的一個小program 也不太想要從輪子開始打造 Survey了好一番 監控的解決方案從Zabbix到其他一大堆 眼花撩亂的 但有些非免費 有些僅限Linux平台 有些功能太多 有些功能又缺了些 像是這個GOLang寫的Checkup https://github.com/sourcegraph/checkup 差了系統資訊監控跟規則&警報定義 只能做到status check而已 目前找到的只有 Prometheus https://prometheus.io/ 應該都有符合需求 搭配AlertManager, WMI_exporter, Blackbox exporter 可惜還差了discover service以及監控某個API狀態的需求 可能得自己刻一個json exporter? 或者已經有現成的exporter呢? 不知道是否有其他的解決方案可以參考的 感謝各位~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.250.83.50 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1564841379.A.939.html
MOONY135: 除了四跟五我好像都有現成方案 08/03 22:22
wwfkane: zabbix、nagios 08/03 22:23
jack0204: 自己寫資訊來接服務比較好吧 08/03 22:25
MOONY135: Qt可以做桌面的 四五沒做過 不過應該也是可以測 08/03 22:27
alihue: 普羅米修斯 08/03 23:07
s890510: 普羅米修斯+grafa 08/03 23:08
s890510: na 08/03 23:08
e920528: Prometheus 08/03 23:22
slash66: WhatsupGold 08/03 23:57
ripple0129: 這年代除非你很熟其他方案之外,還有比Prometheus + g 08/04 02:00
ripple0129: rafana更強大的選擇嗎,會來問基本上就是不用考慮了, 08/04 02:00
ripple0129: 入門簡單又強大。 08/04 02:00
PoloHuang: Zabbix 08/04 10:54
Sieg2010: Zabbix 08/04 18:41
SmallpTsai: Prometheus 08/05 21:56
bamchisu: 推自己磕 08/06 12:45
bamchisu: 加油 OS跟web server也做一下 08/06 12:46
bamchisu: 還有程式語言跟編譯器 08/06 12:47