diff = y_pred - Y
# Back prop (chain rule)
d_l2 = diff * sigmoid_prime(l2)
-
위 부분에서 diff를 그대로 쓰면 안될거 같습니다.
diff가 loss를 의미하는데, 저 자리에는 diff가 아니라 d(diff)/d(y_pred) => 1이 되야할거 같습니다.
제가 잘못 이해했다면 알려주시면 감사하겠습니다.
-
업데이트 부분에서
w1 = w1 - learning_rate * d_w1
b1 = b1 - learning_rate * torch.mean(d_b1, 0)
왜 bias에만 mean을 적용하는지 가르쳐주세요 그리고 torch.mean(d_b1, 0) 대신 d_b1했을때도 결과가 같은데요.
3.그리고 마지막 셀에서 끝나지 않는데,, 저만 그런가요