Naive gradient descent
ph
실제로 동작하는걸 눈으로 보고 싶어서 코드로 한번 만들어봄
해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중. 학습 도중에, 숫자들이 적절히(\(10^{-5}\sim10^5\)) 잘 분포하도록 조정하면 학습에도 좋을 것 같은데, 이런걸 자동으로 할 수는 없는건가. BN이 해주는건가.
그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\Delta\)값을 직접 계산으로 구해서 사용해보면, 학습이 잘 안되는 일이 많다. numerical error때문인듯.