作者fragmentwing (片翼碎夢)
看板DataScience
標題[問題] 驗證的accuarcy完全沒變
時間Thu Mar 9 12:42:05 2023
在練習用VGG16做分類,我用這篇的程式碼下去改的
https://reurl.cc/RvvG9x
VGG16的部分和他這篇不一樣不是用預設而是用寫的
問題在於,進行訓練的時候Testing acc一直都是0.500,而acc都在0.5附近上下跳動
也就是說好像根本沒有學習到
進行訓練的程式碼如下:
(基本與那篇相同,這裡只是將原文中的C改成model,並且把label的type改成tensor)
if __name__ == '__main__':
for epoch in range(epochs):
start_time = time.time()
iter = 0
correct_train, total_train = 0, 0
correct_test, total_test = 0, 0
train_loss_C = 0.0
model.train() # 設定 train 或 eval
print('epoch: ' + str(epoch + 1) + ' / ' + str(epochs))
# ---------------------------
# Training Stage
# ---------------------------
for i, (x, label) in enumerate(train_dataloader) :
label = label.type(torch.LongTensor)
x, label = x.to(device), label.to(device)
optimizer_C.zero_grad() # 清空梯度
train_output = model(x)
train_loss = criterion(train_output, label) # 計算 loss
train_loss.backward() # 將 loss 反向傳播
optimizer_C.step() # 更新權重
# 計算訓練資料的準確度 (correct_train / total_train)
_, predicted = torch.max(train_output.data, 1)
total_train += label.size(0)
correct_train += (predicted == label).sum()
train_loss_C += train_loss.item()
iter += 1
print('Training epoch: %d / loss_C: %.3f | acc: %.3f' % \
(epoch + 1, train_loss_C / iter, correct_train / total_train))
# --------------------------
# Testing Stage
# --------------------------
model.eval() # 設定 train 或 eval
for i, (x, label) in enumerate(test_dataloader) :
with torch.no_grad():
label = label.type(torch.LongTensor)
x, label = x.to(device), label.to(device)
test_output = model(x)
test_loss = criterion(test_output, label) # 計算 loss
# 計算測試資料的準確度 (correct_test / total_test)
_, predicted = torch.max(test_output.data, 1)
total_test += label.size(0)
correct_test += (predicted == label).sum()
print('Testing acc: %.3f' % (correct_test / total_test))
train_acc.append(100 * (correct_train / total_train).cpu()) #
training accuracy
test_acc.append(100 * (correct_test / total_test).cpu()) # testing
accuracy
loss_epoch_C.append((train_loss_C / iter)) # loss
end_time = time.time()
print('Cost %.3f(secs)' % (end_time - start_time))
指定epochs只跑3次,得到以下結果:
epoch: 1 / 3
Training epoch: 1 / loss_C: 0.693 | acc: 0.514
Testing acc: 0.500
Cost 21.822(secs)
epoch: 2 / 3
Training epoch: 2 / loss_C: 0.693 | acc: 0.475
Testing acc: 0.500
Cost 23.002(secs)
epoch: 3 / 3
Training epoch: 3 / loss_C: 0.693 | acc: 0.476
Testing acc: 0.500
Cost 22.669(secs)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.144.160 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1678336929.A.EBC.html
推 jigfopsda: 我猜是 train 壞了,調看看 lr 或變數印出來看看有沒有 03/09 17:53
→ jigfopsda: bug 03/09 17:53
推 st1009: 沒有設定optimizer的程式嗎? 03/09 19:58
→ lycantrope: 複製貼上沒錯的話就是VGG寫錯了 03/09 22:53
→ fragmentwing: optimizer有寫只是放在更前面指定 lr調過幾次都不影 03/09 23:19
→ fragmentwing: 響這個問題 03/09 23:19
→ fragmentwing: 主要是擔心因為我看到有人說是pytorch使用gpu時造成 03/09 23:19
→ fragmentwing: 的bug(不過他的案例是不要用adam就行 但我這邊一開 03/09 23:19
→ fragmentwing: 始用的就是sgd) 03/09 23:19
→ truehero: train loss 完全沒變阿, 把第一個batch資料全印出來比對 03/10 00:27
→ fragmentwing: 嗚嗚想說換另一個人寫的vgg下來代,結果gpu記憶體 03/10 19:24
→ fragmentwing: 不足,請問3070真的還不夠vgg16用嗎? 03/10 19:25
→ wuyiulin: 你 batch_size 開多少?3070 只有 8GB當然容易爆開 03/10 23:28
推 st1009: 3070應該是可以train vgg16的吧,但這東西容易炸 03/11 08:04
→ st1009: 建議看一下板規2-2 03/11 08:04
推 st1009: 其實optimizer可能影響這問題,我寫過vgg16... 03/11 08:07
推 st1009: 剛剛卜一卦,卦象告訴我你的問題是"梯度消失" 03/11 08:37
→ fragmentwing: 感謝建議 我看看怎麼解 03/11 13:35
→ st1009: 其實如果還是不行,可以用pastebin把完整程式貼上來(? 03/13 07:19
推 kaltu: 梯度消失也很難消失得這麼徹底到好像完全沒做back propagat 03/18 07:06
→ kaltu: ion一樣 03/18 07:06
→ kaltu: 壞的這麼漂亮的狀況我投bug一票 03/18 07:06
→ st1009: 之前試過lr bs設錯會這樣,才想說讓他看2-2貼完整的程式 03/18 08:26
→ st1009: bug有機會,只是目前貼出來的部分看起來沒問題 03/18 08:28
→ fragmentwing: 後來終於搞懂整個pytorch主要架構後再回來挑戰一次 04/28 02:41
→ fragmentwing: 把整個程式重寫後發現loss根本沒在動 04/28 02:41
→ fragmentwing: 查了很久最後發現有人說VGG不能用ADAM(他還說這很 04/28 02:41
→ fragmentwing: 知名,那我怎麼找這麼久才找到QQ,而且我看有人做CI 04/28 02:41
→ fragmentwing: FAR10一樣用ADAM啊) 04/28 02:41
→ fragmentwing: 改用SGD之後表現就正常多了(雖然還是滿爛的,accura 04/28 02:41
→ fragmentwing: cy和precision差不多在80%) 04/28 02:41
→ fragmentwing: 還有SGD吃資源好像比較兇,用ADAM大概6.0G,用SGD吃 04/28 02:41
→ fragmentwing: 到7.9G差點到顯卡極限 04/28 02:41
→ fragmentwing: 等到我把存檔等等細節也搞定後再來看看怎麼用板上提 04/28 02:41
→ fragmentwing: 供的東西把整個模型貼上來 04/28 02:41
→ fragmentwing: 喔對了我這邊目前只分兩類 04/28 02:51