"LDA"의 두 판 사이의 차이

ph
이동: 둘러보기, 검색
15번째 줄: 15번째 줄:
 
<blockquote>imagine that a model consists of three variables A, B, and C. A simple Gibbs sampler would sample from p(A|B,C), then p(B|A,C), then p(C|A,B). A collapsed Gibbs sampler might replace the sampling step for A with a sample taken from the marginal distribution p(A|C), with variable B integrated out in this case.[https://en.wikipedia.org/wiki/Gibbs_sampling#Collapsed_Gibbs_sampler]</blockquote>
 
<blockquote>imagine that a model consists of three variables A, B, and C. A simple Gibbs sampler would sample from p(A|B,C), then p(B|A,C), then p(C|A,B). A collapsed Gibbs sampler might replace the sampling step for A with a sample taken from the marginal distribution p(A|C), with variable B integrated out in this case.[https://en.wikipedia.org/wiki/Gibbs_sampling#Collapsed_Gibbs_sampler]</blockquote>
 
(이게 설명만 읽으면 알겠는데 또 위에 [http://bab2min.tistory.com/569 <nowiki>[1]</nowiki>]에서 실제로 하는것 보면 collapsed가 아닌것 같고 그렇다고 basic version하고는 또 달라서 그냥 알쏭달쏭하다. basic version이라면 LDA할 때 하나를 빼놓는 것이 아니라 나머지에 대해 조건부확률을 보아야 할 것인데 아예 그 하나를 빼버리고 나머지만으로 분포를 구성한 후 추정하기 때문에 collapsed인가 싶다가도, collapsed는 빼버린 그것을 추정하는 것이 아니고 빼버린후 (뺀건 생각하지 않고) 나머지에 대해 sampling하는거 같은데, 그럼 아니지 않나 싶기도 하고 -_-)
 
(이게 설명만 읽으면 알겠는데 또 위에 [http://bab2min.tistory.com/569 <nowiki>[1]</nowiki>]에서 실제로 하는것 보면 collapsed가 아닌것 같고 그렇다고 basic version하고는 또 달라서 그냥 알쏭달쏭하다. basic version이라면 LDA할 때 하나를 빼놓는 것이 아니라 나머지에 대해 조건부확률을 보아야 할 것인데 아예 그 하나를 빼버리고 나머지만으로 분포를 구성한 후 추정하기 때문에 collapsed인가 싶다가도, collapsed는 빼버린 그것을 추정하는 것이 아니고 빼버린후 (뺀건 생각하지 않고) 나머지에 대해 sampling하는거 같은데, 그럼 아니지 않나 싶기도 하고 -_-)
 +
 +
 +
hyperparameter로 \(\alpha, \beta\)가 더해지는데, 아마도 dirichlet distribution[http://iph.kr/wiki/index.php/Dirichlet_distribution]이 prior를 추정하면  \(\operatorname {Dir} (K,\mathbf {c} +{\boldsymbol {\alpha }}) \)라서 그런듯하다. (\(\mathbf {c}\)는 occurence. 즉, 발생횟수) 확실치 않음.
  
  

2017년 6월 16일 (금) 02:30 판

일단 위키.(여기보면 처음 발표된 논문은 인용이 10k가 넘는 굉장히 기념비적인 논문이라고 함.) 뭔가 엄청나게 복잡한 수식이 마구마구 등장한다. 무슨얘긴지 읽어볼 엄두도 안냈음.
이걸 또 한글 위키(잠재 디리클레 할당)로 모두 번역하는 수고를 누군가 했다. ㄷㄷㄷㄷㄷ

한글로 된 참고할 만한 자료들이 몇개 있기는 한데 다 대동소이하고, [잠재 디리클레 할당 파헤치기] 3. 깁스 샘플링으로 파라미터 추정[1]이 가장 좋다. 구체적인 예시와 함께 있다.


[1]읽을 때 미리 염두에 두면 좋을 것:

  1. 문서가 가지는 주제의 분포\(\theta\)와 각 주제가 가질 수 있는 단어의 분포\(\varphi\)를 모른다.
  2. 단어가 어느 주제에 속해 있는지를 (collapsed) gibbs sampling한다.

단어를 주제에 (잘) 매칭하면, \(\theta, \varphi\) 둘 다 자동으로 나온다.

collapsed gibbs sampling한다고 하는데, gibbs sampling과 (약간) 다른 것이다.[2]
gibbs sampling은, \(x_{j}^{ {(i+1)}}\)를 \({\displaystyle p\left(x_{j}^{(i+1)}|x_{1}^{(i+1)},\dots ,x_{j-1}^{(i+1)},x_{j+1}^{(i)},\dots ,x_{n}^{(i)}\right)}\)에 따라 update하는 반면, collapsed gibbs는 아예 marginalize시켜 버린다고 한다.

imagine that a model consists of three variables A, B, and C. A simple Gibbs sampler would sample from p(A|B,C), then p(B|A,C), then p(C|A,B). A collapsed Gibbs sampler might replace the sampling step for A with a sample taken from the marginal distribution p(A|C), with variable B integrated out in this case.[3]

(이게 설명만 읽으면 알겠는데 또 위에 [1]에서 실제로 하는것 보면 collapsed가 아닌것 같고 그렇다고 basic version하고는 또 달라서 그냥 알쏭달쏭하다. basic version이라면 LDA할 때 하나를 빼놓는 것이 아니라 나머지에 대해 조건부확률을 보아야 할 것인데 아예 그 하나를 빼버리고 나머지만으로 분포를 구성한 후 추정하기 때문에 collapsed인가 싶다가도, collapsed는 빼버린 그것을 추정하는 것이 아니고 빼버린후 (뺀건 생각하지 않고) 나머지에 대해 sampling하는거 같은데, 그럼 아니지 않나 싶기도 하고 -_-)


hyperparameter로 \(\alpha, \beta\)가 더해지는데, 아마도 dirichlet distribution[4]이 prior를 추정하면 \(\operatorname {Dir} (K,\mathbf {c} +{\boldsymbol {\alpha }}) \)라서 그런듯하다. (\(\mathbf {c}\)는 occurence. 즉, 발생횟수) 확실치 않음.


gibbs로 iteration을 많이 돌면 최적점에 수렴한다고 확신할 수 있는지 궁금한데, 그 증명은 못찾아보겠다. dirichlet distribution이 unimodality[5]를 보장하면 되는건가(혹은 그 반대인가) 싶다가도.. 그냥 모르겠음.



blog comments powered by Disqus