Naive gradient descent

실제로 동작하는걸 눈으로 보고 싶어서 코드로 한번 만들어봄

해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.

그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\Delta\)값을 직접 계산으로 구해서 사용해보면, 학습이 잘 안되는 일이 많다. numerical error때문인듯.