作者gilingking (精靈遊俠)
看板DataScience
標題[問題] (已解決)Tensorflow session 初始化時間很久
時間Thu Oct 22 22:47:58 2020
作業系統: WIN10 64
問題類別: DL、CNN
使用工具: Keras-2.3.1
Tensorflow-2.1.0
cudnn-7.6.5
Cuda-10.1.243
硬體配置: I5-8400、技嘉GTX3090、RAM64G
同樣的程式碼,都配置同樣的虛擬環境
我在2080Ti在初始化模型訓練的過程大概花費2~3分鐘
但換成3090時卻需要20分鐘,如附圖
https://imgur.com/zxhyJre
模型是一個Binary classification model
簡單說明一些使用的參數:
image_size: 224x224x3
Batch_size: 32
Optimizer: Adam
CNN架構僅是五層的2Dconv+BN+ReLU
最後面接GAP+Dense(32)+Dense(1)
藍色處是第一次model.complie(),花費五分鐘
紅色處是第一次model.fit_generator,花費十七分鐘
而即使啟動訓練後,模型也感覺沒在訓練,train loss僅有些微的變動
val_loss跟val_accuracy則是完全沒變。
但相同的程式碼我在另外一台跑是正常且loss會收斂的。
我有考量到是不是GPU有問題,我知道之前國外有crash的災情
目前驅動已經更新到最新版(456.71)
我搜尋網上沒有找到類似的問題(但我覺得可能是我不太會找)
還請各位高手替我解惑,先謝謝各位了
-------------------------------------------------------
由於30系列的顯卡目前只支援cuda11.1
所以若要正常使用tensorflow做訓練目前我搜尋到的結果只有兩種
1. 自己重新編譯一版能支援cuda11.1的tensorflow
2. 用tf-nightly (tensorflow-2.4 以上的版本似乎都有支援Cuda11.1)
我目前是用第二種,現在訓練的狀況就正常了
也分享一下我自己建環境的心得
https://tinyurl.com/y6o83p6w
最後謝謝各位留言回覆的大神們幫忙
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.175.112.198 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1603378080.A.104.html
※ 編輯: gilingking (1.175.112.198 臺灣), 10/22/2020 23:07:02
推 min86615: 好像很多人2.1版都會有這個問題(非3090的鍋),你降版 10/22 23:55
→ min86615: 試試 10/22 23:55
→ min86615: 啊啊啊抱歉我想問一下 cuda10.1支援3090嗎也可能是CUDA 10/23 00:03
→ min86615: 上的問題 10/23 00:03
→ gilingking: 我也想過可能是cuda 那所以都換個版本試試看嗎 10/23 00:15
→ gilingking: 也許cuda版本是一個好的方向 謝謝你的提點 我明天測 10/23 00:18
→ gilingking: 試看看效果如何 10/23 00:18
→ gilingking: 我是沒有碰到error 不過可以把版本升上去試試看 當初 10/23 00:19
→ gilingking: 降到2.1是因為跟其他函式庫版本有衝突 10/23 00:19
→ chang1248w: 在等tensorflow支援cuda11 10/23 00:52
→ gilingking: 所以是目前30系列只能支持cuda11.1的版本關係嗎? 那 10/23 08:23
→ gilingking: 看來只能等TF2.4版了 10/23 08:23
→ followwar: pytorch makes life easier XD 10/25 21:40
推 jasonspacex: tf-nighty 支援 cuda11.1 10/29 19:06
推 jasonspacex: 30系列好像只支援cuda11 10/29 19:07
推 jasonspacex: 用3080跑 目前沒什麼問題 10/29 19:10
→ gilingking: 嗯嗯 我目前也是用tf-nightly 謝謝你哦 10/30 09:54
※ 編輯: gilingking (49.216.244.8 臺灣), 10/30/2020 10:24:41