Naive gradient descent - 편집 역사

2018년 2월 5일 (월) 14:19에 Admin님의 편집

2018-02-05T14:19:43Z

2018년 2월 5일 (월) 14:17에 Admin님의 편집

2018-02-05T14:17:35Z

2018년 2월 5일 (월) 14:17에 Admin님의 편집

2018-02-05T14:17:20Z

Admin: 새 문서: 실제로 동작하는걸 눈으로 보고 싶어서 코드로 한번 만들어봄 [https://github.com/pilhoon/ipynbs/blob/master/gd_eg.ipynb 코드] 해보니, learning rate과 sca...

2018-02-05T14:15:34Z

새 문서: 실제로 동작하는걸 눈으로 보고 싶어서 코드로 한번 만들어봄 [https://github.com/pilhoon/ipynbs/blob/master/gd_eg.ipynb 코드] 해보니, learning rate과 sca...

새 문서

실제로 동작하는걸 눈으로 보고 싶어서 코드로 한번 만들어봄

[https://github.com/pilhoon/ipynbs/blob/master/gd_eg.ipynb 코드]

해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.

@@ 3번째 줄: / 3번째 줄: @@
 [https://github.com/pilhoon/ipynbs/blob/master/gd_eg.ipynb 코드]
-해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.
+해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중. 학습 도중에, 숫자들이 적절히(\(10^{-5}\sim10^5\)) 잘 분포하도록 조정하면 학습에도 좋을 것 같은데, 이런걸 자동으로 할 수는 없는건가. BN이 해주는건가.
 그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\Delta\)값을 직접 계산으로 구해서 사용해보면, 학습이 잘 안되는 일이 많다. numerical error때문인듯.

← 이전 판		2018년 2월 5일 (월) 14:17 판
5번째 줄:		5번째 줄:
	해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.		해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.

−	그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\~~delta~~\)값을 직접 계산으로 구해서 사용해보면, 잘 안되는 일이 많다. numerical error때문인듯.	+	그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\Delta\)값을 직접 계산으로 구해서 사용해보면, 학습이 잘 안되는 일이 많다. numerical error때문인듯.

← 이전 판		2018년 2월 5일 (월) 14:17 판
4번째 줄:		4번째 줄:

	해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.		해보니, learning rate과 scale조정에 대해 gradient method자체가 굉장히 빈약해 보였음. 그 magic number들을 잘못 넣으면 학습 자체가 잘 안되는 케이스를 종종 마주친다는 얘기. 이런거 관련해서 내가 실험을 잘못했거나, 연구분야가 있는 것인데 모르고 있는 것일텐데 지금은 전자쪽으로 추정중.
		+
		+	그리고 확실히 미분가능한 함수를 사용하는 것이 좋다(parameter조정을 대충해도 잘 된다). \(\delta\)값을 직접 계산으로 구해서 사용해보면, 잘 안되는 일이 많다. numerical error때문인듯.