看板 Linux 關於我們 聯絡資訊
學校的計算電腦叢集的硬碟常常會卡住和產生錯誤 比方說 我用df指令時, 顯示計算硬碟掛載的目錄部分就會當住 dmesg 也會產生很多相關的錯誤 LustreError: Skipped 16 previous similar messages Lustre: 4440:0:(import.c:517:import_select_connection()) wk2-OST0000-osc-ffff81042ee37000: trie d all connections, increasing latency to 25s Lustre: 4440:0:(import.c:517:import_select_connection()) Skipped 9 previous similar messages LustreError: 11-0: an error occurred while communicating with 192.168.170.233@o2ib. The ost_con nect operation failed with -30 這類硬碟讀取問題要怎麼自動排除和檢測呢? 有一套sop流程嗎? 感謝~~~~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.30.19 ※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1473824938.A.599.html ※ 編輯: peter308 (140.115.30.19), 09/14/2016 11:49:51
filiaslayers: fsck 09/14 12:44
kenduest: 上面似乎不是硬碟的訊號。 卡住先確認網路是否正常 09/14 14:39
dou0228: 連問題都不會問,這是lustre 09/14 15:27
所以有什麼建議嗎? 這個系統我不熟因為是學校在管理的 我是隨意測試一下發現有這些狀況~~ ※ 編輯: peter308 (140.115.30.19), 09/14/2016 15:48:00
Vdragon: 直接回報管理單位吧 09/14 16:29
恩恩 因為管理員目前是一位女性代理, 他只能回報廠商 沒辦法處理這些比較專業的問題 我才想能否自行排除維護 感謝~~ ※ 編輯: peter308 (140.115.30.19), 09/14/2016 16:45:59
OrzOGC: 交給專業的就好,還是你想自己扛屎? 09/14 17:28
她不處理 我的數據就出不來,論文就會idle在那邊,很麻煩~ ※ 編輯: peter308 (36.231.191.240), 09/14/2016 17:29:27
HamalAri: 應該是流量太大暫時搞掛 NFS ,暫存本機別直接存 NFS 09/15 01:00
HamalAri: 結果跑完再一台一台各自拉回去 09/15 01:00
soem: 可是他是Lustre,如果實驗的資料量太大就沒辦法這樣玩 09/22 00:31