0926 information bottleneck
New Theory Cracks Open the Black Box of Deep Learning
The information bottleneck method (Naftali Tishby, Fernando C. Pereira, William Bialek. 이 주제에 관해가장 처음 나온 저자의 논문)
(아마도) 콴타매거진에 나오게 된 계기가 된 논문 Opening the Black Box of Deep Neural Networks via Information
문장구조도 정확히 파악은 안되지만, 대충 마지막 문장만 보고 의미를 이해했다. 이 생각에 매우 동의한다.
According to Tishby, who views the information bottleneck as a fundamental principle behind learning, whether you’re an algorithm, a housefly, a conscious being, or a physics calculation of emergent behavior, that long-awaited answer “is that the most important part of learning is actually forgetting.”
Tishby의 의견으로는 Shannon이 ‘information is not about semantics’라는 관점을 가졌다는데 이거 무슨뜻인지 모르겠다.
Tishby는 relevance를 precisely정의할 수 있다고 주장.
아주 예전부터 이 생각을 해오다가 An exact mapping between the Variational Renormalization Group and Deep Learning을 보고, 자신의 생각과 deep learning(이하 dl)간 관련이 있다는 영감을 얻었다고 한다. network의 동작이 기존에 물리학에서 이미 널리 알려진 ‘renormalization’과정(coarse-graining procedure)과 완전히 동일함을 보인 논문.이라는데 renormalization이 뭐지. ㅎㅎ. 예전에 이것도 역시 Quanta에서 본 것 같은데 1도 기억 안남. ㅋㅋ Tishby가 주시한 문제는 이 과정이 전제하는 자기 반복적 성격(fractal)이 현실에는 나타나지 않는다는것. 왠지 현실도 fractal같은데? 그러다 dl과 renormalization이 더 큰 관점에서 통합될 수 있다는 생각에 이르렀다고 한다.
2015년에 Tishby와 그의 학생인 Noga Zaslavsky는(Deep Learning and the Information Bottleneck Principle) dl이 쓸모있는 데이터만 남기는 최대한의 압축과정이라는 가정을 한 적이 있다. 이번에 Shwartz-Ziv의 실험에서 입력과 출력의 정보손실을 관찰한 결과 network의 각 층이 information bottleneck의 이론적 bound로 수렴함을 확인하게 된다. (이 이론적 한계는 The information bottleneck method에서 제시되었다.)