看板 Linux 關於我們 聯絡資訊
學校的cluster system本來有一個Ganglia的cpu用量監測系統 但Ganglia最近壞掉無法即時監測遠端電腦的cpu使用狀況 cluster是使用"PBS"來派送任務 不知道有沒有替代的指令 可以監測node01~node20, 哪一個node的任務還沒跑完? 因為有的node可能硬體有些問題, 跑得比別人慢 我以前用Ganglia去監測很容易就知道是哪顆node特別慢 然後下次在script指定node的時候就會刻意跳過他 不知道除了Ganglia外 有哪些是不需要root也能執行的指令 讓我知道哪個node執行特別慢 導致整個計算任務倍那個node給拖累 感謝~~~~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.30.19 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1477648097.A.623.html ※ 編輯: peter308 (140.115.30.19), 10/28/2016 17:49:35
kerwinhui: 用pdsh叫每個node回報你user的process,不過這很土 10/28 18:12
kerwinhui: 還有你是PBS Pro, OpenPBS, Torque? 10/28 18:14
kerwinhui: 如果你的 PBS 還在當然可以用 qstat … 10/28 18:15
highfish: qstat無誤 10/30 18:23
peter308: 感謝1F解惑 喔 11/25 15:04