Neural net이 working하지 않는 37가지 이유 - 편집 역사

Admin: /* IV. Training issues */

2017-07-27T03:05:14Z

IV. Training issues

Admin: /* IV. Training issues */

2017-07-27T03:04:11Z

IV. Training issues

Admin: /* IV. Training issues */

2017-07-27T03:03:45Z

IV. Training issues

2017년 7월 27일 (목) 03:02에 Admin님의 편집

2017-07-27T03:02:35Z

Admin: /* I. Dataset issues */

2017-07-25T15:59:34Z

I. Dataset issues

Admin: /* I. Dataset issues */

2017-07-25T15:58:59Z

I. Dataset issues

2017년 7월 25일 (화) 15:58에 Admin님의 편집

2017-07-25T15:58:17Z

Admin: /* IV. Training issues */

2017-07-25T15:57:42Z

IV. Training issues

Admin: /* III. Implementation issues */

2017-07-25T15:09:22Z

III. Implementation issues

Admin: /* I. Dataset issues */

2017-07-25T14:27:57Z

I. Dataset issues

@@ 66번째 줄: / 66번째 줄: @@
 * Increase/Decrease Learning Rate : 현재 lr에서 0.1이나 10을 곱하면서 바꾸어볼것.
 * RNN을 학습할 때, NaN은 큰 문제
-** 처음 100 iteration안에 NaN을 얻는다면, lr을 줄여본다.
+** 처음 \(100\) iteration안에 NaN을 얻는다면, lr을 줄여본다.
-** 0으로 나눌 때 뿐 아니라, log에 0이나 음수가 들어가서 나올 수 있다.
+** \(0\)으로 나눌 때 뿐 아니라, log에 \(0\)이나 음수가 들어가서 나올 수 있다.
 ** NaN을 다루는 [http://russellsstewart.com/notes/0.html Russell Stewart의 훌륭한 글]이 있다.
 ** layer by layer로 조사해보면서 NaN을 찾아야 할 수도 있다.

@@ 58번째 줄: / 58번째 줄: @@
 ** 각 layer의 activations, weights, updates를 monitor할 것. 변화량이 적어야 ([https://cs231n.github.io/neural-networks-3/#summary 약 1-e3정도는 돼야]) 학습이 다 된 것이다.
 ** Tensorboard나 Crayon을 써라
-* activation의 평균값이 0을 상회하는지 주시할것. Batch Norm이나 [[Exponential Linear Unit|ELU]]를 써라.
+* activation의 평균값이 \(0\)을 상회하는지 주시할것. Batch Norm이나 [[Exponential Linear Unit|ELU]]를 써라.
 * weights, biases의 histogram은 gaussian인 것이 자연스럽다(LSTM은 그렇지 않다). 해당 값들이 inf로 발산하는지 주시해야 한다.
 * optimizer를 잘 쓰면 학습을 빠르게 할 수 있다. [http://ruder.io/optimizing-gradient-descent/ 각종 gradient에 관한 훌륭한 참고 글]

@@ 52번째 줄: / 52번째 줄: @@
 * net초기화가 중요할 수 있다. [http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf Xavier]나 [http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf He]를 시도해보라
 * hyperparameter를 이리저리 바꿔본다
-* regularization(예) dropout, batch norm, weight/bias L2 reg.등)을 줄여본다. [http://course.fast.ai/ 이 강의]에서는 (overfitting보다) underfitting을 먼저 제거하라고 한다.
+* regularization(예: dropout, batch norm, weight/bias L2 reg.등)을 줄여본다. [http://course.fast.ai/ 이 강의]에서는 (overfitting보다) underfitting을 먼저 제거하라고 한다.
 * loss가 줄고 있다면 더 기다려보라
 * Framework들은 mode(training/test)에 따라 Batch Norm, Dropout등이 다르게 동작한다.

← 이전 판		2017년 7월 27일 (목) 03:02 판
2번째 줄:		2번째 줄:
	https://blog.slavv.com/37-reasons-why-your-neural-network-is-not-working-4020854bd607		https://blog.slavv.com/37-reasons-why-your-neural-network-is-not-working-4020854bd607

−	점검 리스트등으로 활용 가능해 보여서 일부~~<del>~~이긴 한데 거의 전부~~</del>~~를 발췌하여 옮겨둔다.	+	점검 리스트등으로 활용 가능해 보여서 일부(이긴 한데 거의 전부)를 발췌하여 옮겨둔다.

@@ 28번째 줄: / 28번째 줄: @@
 * 트레이닝셋은 충분한가. finetuning말고 scratch부터 하려면 많은 데이터가 필요하다.
 * batch안에 최대한 많은 label이 들어가도록.
-* batch size를 줄여라. batch size가 너무 크면 generalization능력을 떨어트리는 것으로 알려져 있다. [https://arxiv.org/abs/1609.04836 arXiv:1609.04836]
+* batch size를 줄여라. batch size가 너무 크면 generalization능력을 떨어트리는 것으로 알려져 있다. [https://arxiv.org/abs/1609.04836 참고논문 arXiv:1609.04836]
 ==II. Data Normalization/Augmentation==

@@ 22번째 줄: / 22번째 줄: @@
 * 랜덤 데이터를 넣어보고 에러의 변화를 살펴보라. 만일 비슷하다면 net의 중간 어디선가 데이터가 (모두 0이 된다든지 하는 식으로) garbage로 변하고 있다.
 * 입력 몇개만 가지고 생성되는 label과, 그 입력을 shuffle해보고 생성되는 label이 같은지 점검해볼것
-* 올바른 문제를 풀고 있는건가 다시 점검(주식데이터 같은건 원래 랜덤이다. 관계가 있을리 없다)
+* 올바른 문제를 풀고 있는건가 다시 점검(주식데이터 같은건 원래 랜덤이다. 패턴이 있을리 없다)
 * 데이터 자체가 너무 더러울 수 있다. noise가 너무 많다거나, mis-label이 너무 많다거나 하는 문제들. 일일이 눈으로 확인해보는 수밖에 없다.
 * shuffle 꼭 할것. ordered data가 들어가면 학습이 잘 안된다.
@@ 29번째 줄: / 29번째 줄: @@
 * batch안에 최대한 많은 label이 들어가도록.
 * batch size를 줄여라. batch size가 너무 크면 generalization능력을 떨어트리는 것으로 알려져 있다. [https://arxiv.org/abs/1609.04836 arXiv:1609.04836]
 ==II. Data Normalization/Augmentation==
 * 정규화 할것

← 이전 판		2017년 7월 25일 (화) 15:58 판
2번째 줄:		2번째 줄:
	https://blog.slavv.com/37-reasons-why-your-neural-network-is-not-working-4020854bd607		https://blog.slavv.com/37-reasons-why-your-neural-network-is-not-working-4020854bd607

−	점검 리스트등으로 활용 가능해 보여서 ~~일부를~~ 발췌하여 옮겨둔다.	+	점검 리스트등으로 활용 가능해 보여서 일부<del>이긴 한데 거의 전부</del>를 발췌하여 옮겨둔다.

← 이전 판		2017년 7월 25일 (화) 15:09 판
37번째 줄:		37번째 줄:
	* 좀 더 간단한 문제부터 풀어보라. 예를들어, 객체의 종류와 위치를 맞추는 것이라면, 일단 종류만 맞춰보라		* 좀 더 간단한 문제부터 풀어보라. 예를들어, 객체의 종류와 위치를 맞추는 것이라면, 일단 종류만 맞춰보라
	* 우연히 맞을 확률 점검. 예를들어, 10개의 클래스를 맞추는 문제에서 우연히 맞을 negative log loss는 \(-\ln(0.1) = 2.302\)다.		* 우연히 맞을 확률 점검. 예를들어, 10개의 클래스를 맞추는 문제에서 우연히 맞을 negative log loss는 \(-\ln(0.1) = 2.302\)다.
		+	* loss function을 만들어 쓰고 있다면, 해당 loss가 잘 동작하는지 일일이 확인할 필요가 있다.
		+	** 라이브러리가 제공한는 loss를 쓴다면, 해당 함수가 어떤 형식의 input을 받는지 명확히 확인할것. 예를들어, PyTorch에서, NLLLoss와 CrossEntropyLoss는 다른 형식의 입력을 받는다.
		+	** loss가 작은 term들의 합이라면, 각 term의 scale을 조정해야 할 수도 있다.
		+	** loss말고 accuracy를 써야 할 경우도 있다. metric을 loss로 잡는 것이 적절한지 다시 생각해볼 것.
		+	* net을 스스로 만들었다면
		+	** 하나하나 제대로 동작하는지 확실히 하고 넘어가라
		+	** 학습중 frozen layer가 있는지 점검해볼것.
		+	** expressive power가 부족할 수 있다. network size를 늘려볼 것.
		+	** input이 \((k, H, W) = (64, 64, 64)\) 이런식이면 중간에 잘 되는지 안되는지 보기가 애매하다. prime number로 구성하든지 해서 잘 동작하는지 확인해보라.
		+	* Gradient descent를 직접 만들었으면, 잘 동작하는지 확인하라. 다음을 참고하라 [http://ufldl.stanford.edu/tutorial/supervised/DebuggingGradientChecking/ 1] [http://cs231n.github.io/neural-networks-3/#gradcheck 2][https://www.coursera.org/learn/machine-learning/lecture/Y3s6r/gradient-checking 3]
		+	==IV. Training issues==
		+	* 한개나 두개의 예를 넣어서 학습해보고 잘 되는지 확인하라
		+	* net초기화가 중요할 수 있다. [http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf Xavier]나 [http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/He_Delving_Deep_into_ICCV_2015_paper.pdf He]를 시도해보라
		+	* hyperparameter를 이리저리 바꿔본다
		+	* regularization(예) dropout, batch norm, weight/bias L2 reg.등)을 줄여본다. [http://course.fast.ai/ 이 강의]에서는 (overfitting보다) underfitting을 먼저 제거하라고 한다.
		+	* loss가 줄고 있다면 더 기다려보라
		+	* Framework들은 mode(training/test)에 따라 Batch Norm, Dropout등이 다르게 동작한다.
		+	* 학습과정을 시각화 하라.
		+	** 각 layer의 activations, weights, updates를 monitor할 것. 변화량이 적어야 ([https://cs231n.github.io/neural-networks-3/#summary 약 1-e3정도는 돼야]) 학습이 다 된 것이다.
		+	** Tensorboard나 Crayon을 써라
		+	* activation의 평균값이 0을 상회하는지 주시할것. Batch Norm이나 [[Exponential Linear Unit\|ELU]]를 써라.
		+	* weights, biases의 histogram은 gaussian인 것이 자연스럽다(LSTM은 그렇지 않다). 해당 값들이 inf로 발산하는지 주시해야 한다.
		+	* optimizer를 잘 쓰면 학습을 빠르게 할 수 있다. [http://ruder.io/optimizing-gradient-descent/ 각종 gradient에 관한 훌륭한 참고 글]
		+	*