看板 DataScience 關於我們 聯絡資訊
作業系統: Linux Ubuntu 16.04 問題類別: 深度學習用的GPU 使用工具: Python, TensorFlow,Keras 問題內容: 板上的各位先進、前輩們大家好 小弟的實驗室主機最近有時會程式執行到一半的時候抓不到顯卡 輸入nvidia-smi指令會整個卡死 (Ctrl+C也無法停止) 如果下reboot指令會需要非常久的時間(將近1小時)才能重開完成 已爬過網路上的文章,還是不知道原因是什麼 所以想問一下大家有沒有遇過類似的情況... 或是我該往哪個方向去解決問題? 先謝謝大家了,請幫幫被困擾已久的我QQ PS: 硬體資訊如下 顯卡: GTX 1080ti*2 (技嘉版本) 主機板: 微星X299 CPU: i7-7740X 電源供應器: 850W (全漢皇鈦極) 記憶體: 64GB DDR4-2400MHz -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.191.194.69 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1532140796.A.2D8.html
sma1033: 哇!微星的主機板耶 07/21 11:14
tsoahans: 有沒有可能是電供不夠力 07/21 18:06
我也有這樣猜想...
atrix: 除了樓上的電力問題,還可以試記憶體降頻看看,或是加AVR 07/21 18:15
謝謝a大,我來試試再觀察看看
atrix: 或是查硬碟有沒壞軌 07/21 18:16
硬碟應該是沒有壞軌
germun: 850W跑不動2張吧 07/21 18:17
我本來以為850W滿夠的QQ
germun: 電供插線的方式也要注意有沒有插錯 07/21 18:18
謝謝g大,插線的部分應該是沒問題
atrix: 執行一段時間才當機的話,不太像電力不足 07/21 20:59
確實是偶發性的...但沒有跑程式的時候幾乎不會有這個情況
b24333666: 驅動有重裝過? 07/21 22:06
有重裝過,目前是396.24.10版 ※ 編輯: mcps5601 (42.191.194.69), 07/22/2018 11:09:50
b24333666: 拿一張正常的顯示卡試試看 07/22 15:43
atrix: 不曉得不同晶片的驅動會不會不一樣,我有三台的驅動是384.1 07/22 18:34
atrix: 11,應該是CUDA自帶的 07/22 18:34
atrix: CUDA8. 0 07/22 18:34