"LDA"의 두 판 사이의 차이

ph
이동: 둘러보기, 검색
1번째 줄: 1번째 줄:
일단 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 위키].(여기보면 처음 발표된 논문은 인용이 10k가 넘는 굉장히 기념비적인 논문이라고 함.)
+
일단 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation 위키].(여기보면 처음 발표된 논문은 인용이 10k가 넘는 굉장히 기념비적인 논문이라고 함.) 뭔가 엄청나게 복잡한 수식이 마구마구 등장한다. 무슨얘긴지 읽어볼 엄두도 안냈음.<br>
 +
이걸 또 한글 위키([https://ko.wikipedia.org/wiki/잠재_디리클레_할당 잠재 디리클레 할당])로 모두 번역하는 수고를 누군가 했다. ㄷㄷㄷㄷㄷ
  
한글로 된 참고자료 [http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply LDA(Latent Dirichlet Allocation): 겉핥기]와 [http://khanrc.tistory.com/entry/Latent-Dirichlet-Allocation-LDA Latent Dirichlet Allocation (LDA)]를 보면 설명이 formal해서 그렇지 그렇게 어려운 내용은 아닌것도 같다. 첫번째 글과 연계해서 [http://www.4four.us/article/2014/10/lda-parameter-estimation LDA 파라미터 추정: 깁스 샘플링을 써서]가 있음.
+
한글로 된 참고할 만한 자료들이 몇개 있기는 한데 다 대동소이하고, <span style='font-family:sans-serif'>[잠재 디리클레 할당 파헤치기] 3. 깁스 샘플링으로 파라미터 추정</span>[http://bab2min.tistory.com/569]이 가장 좋다. 구체적인 예시와 함께 있다.
  
[http://parkcu.com/blog/latent-dirichlet-allocation/ Latent Dirichlet Allocation, LDA]에는 LDA를 이용한 CF를 다루고 있다. 한글 블로그.
 
  
[https://en.wikipedia.org/wiki/Dirichlet_distribution Dirichlet Distribution]도 알면 좋은 모양인데 각종 분포가 다 기억이 안난다...
+
[http://bab2min.tistory.com/569 <nowiki>[1]</nowiki>]읽을 때 미리 염두에 두면 좋을 것:
 +
# 문서가 가지는 주제의 분포\(\theta\)와 각 주제가 가질 수 있는 단어의 분포\(\varphi\)를 모른다.
 +
# 단어가 어느 주제에 속해 있는지를 (collapsed) gibbs sampling한다.
 +
단어를 주제에 (잘) 매칭하면, \(\theta, \varphi\) 둘 다 자동으로 나온다.
 +
 
 +
collapsed gibbs sampling한다고 하는데, gibbs sampling과 (약간) 다른 것이다.[https://en.wikipedia.org/wiki/Gibbs_sampling]<br>
 +
gibbs sampling은,<br>
 +
\(x_{j}^{ {(i+1)}}\)를 \({\displaystyle p\left(x_{j}^{(i+1)}|x_{1}^{(i+1)},\dots ,x_{j-1}^{(i+1)},x_{j+1}^{(i)},\dots ,x_{n}^{(i)}\right)}\)에 따라 update하는 반면, collapsed gibbs는 아예 marginalize시켜 버린다고 한다.
 +
<blockquote>imagine that a model consists of three variables A, B, and C. A simple Gibbs sampler would sample from p(A|B,C), then p(B|A,C), then p(C|A,B). A collapsed Gibbs sampler might replace the sampling step for A with a sample taken from the marginal distribution p(A|C), with variable B integrated out in this case.[https://en.wikipedia.org/wiki/Gibbs_sampling#Collapsed_Gibbs_sampler]</blockquote>
 +
(이게 설명만 읽으면 알겠는데 또 위에 [http://bab2min.tistory.com/569 <nowiki>[1]</nowiki>]에서 실제로 하는것 보면 collapsed가 아닌것 같고 그렇다고 basic version하고는 또 달라서 그냥 알쏭달쏭하다. basic version이라면 LDA할 때 하나를 빼놓는 것이 아니라 나머지에 대해 조건부확률을 보아야 할 것인데 아예 그 하나를 빼버리고 나머지만으로 분포를 구성한 후 추정하기 때문에 collapsed인가 싶다가도, collapsed는 빼버린 그것을 추정하는 것이 아니고 빼버린후 (뺀건 생각하지 않고) 나머지에 대해 sampling하는거 같은데, 그럼 아니지 않나 싶기도 하고 -_-)
 +
 
 +
 
 +
gibbs로 iteration을 많이 돌면 최적점에 수렴한다고 확신할 수 있는지 궁금한데, 그 증명은 못찾아보겠다. dirichlet distribution이 unimodality[https://en.wikipedia.org/wiki/Unimodality]를 보장하면 되는건가(혹은 그 반대인가) 싶다가도.. 그냥 모르겠음.
 +
 
 +
 
 +
 
 +
----
 +
<disqus></disqus>

2017년 6월 16일 (금) 02:20 판

일단 위키.(여기보면 처음 발표된 논문은 인용이 10k가 넘는 굉장히 기념비적인 논문이라고 함.) 뭔가 엄청나게 복잡한 수식이 마구마구 등장한다. 무슨얘긴지 읽어볼 엄두도 안냈음.
이걸 또 한글 위키(잠재 디리클레 할당)로 모두 번역하는 수고를 누군가 했다. ㄷㄷㄷㄷㄷ

한글로 된 참고할 만한 자료들이 몇개 있기는 한데 다 대동소이하고, [잠재 디리클레 할당 파헤치기] 3. 깁스 샘플링으로 파라미터 추정[1]이 가장 좋다. 구체적인 예시와 함께 있다.


[1]읽을 때 미리 염두에 두면 좋을 것:

  1. 문서가 가지는 주제의 분포\(\theta\)와 각 주제가 가질 수 있는 단어의 분포\(\varphi\)를 모른다.
  2. 단어가 어느 주제에 속해 있는지를 (collapsed) gibbs sampling한다.

단어를 주제에 (잘) 매칭하면, \(\theta, \varphi\) 둘 다 자동으로 나온다.

collapsed gibbs sampling한다고 하는데, gibbs sampling과 (약간) 다른 것이다.[2]
gibbs sampling은,
\(x_{j}^{ {(i+1)}}\)를 \({\displaystyle p\left(x_{j}^{(i+1)}|x_{1}^{(i+1)},\dots ,x_{j-1}^{(i+1)},x_{j+1}^{(i)},\dots ,x_{n}^{(i)}\right)}\)에 따라 update하는 반면, collapsed gibbs는 아예 marginalize시켜 버린다고 한다.

imagine that a model consists of three variables A, B, and C. A simple Gibbs sampler would sample from p(A|B,C), then p(B|A,C), then p(C|A,B). A collapsed Gibbs sampler might replace the sampling step for A with a sample taken from the marginal distribution p(A|C), with variable B integrated out in this case.[3]

(이게 설명만 읽으면 알겠는데 또 위에 [1]에서 실제로 하는것 보면 collapsed가 아닌것 같고 그렇다고 basic version하고는 또 달라서 그냥 알쏭달쏭하다. basic version이라면 LDA할 때 하나를 빼놓는 것이 아니라 나머지에 대해 조건부확률을 보아야 할 것인데 아예 그 하나를 빼버리고 나머지만으로 분포를 구성한 후 추정하기 때문에 collapsed인가 싶다가도, collapsed는 빼버린 그것을 추정하는 것이 아니고 빼버린후 (뺀건 생각하지 않고) 나머지에 대해 sampling하는거 같은데, 그럼 아니지 않나 싶기도 하고 -_-)


gibbs로 iteration을 많이 돌면 최적점에 수렴한다고 확신할 수 있는지 궁금한데, 그 증명은 못찾아보겠다. dirichlet distribution이 unimodality[4]를 보장하면 되는건가(혹은 그 반대인가) 싶다가도.. 그냥 모르겠음.



blog comments powered by Disqus