0226 Silhouette (clustering)

ph
이동: 둘러보기, 검색

클러스터링이 잘 되었는지 평가하는 척도로 쓰인다고 함. 간략하고 좋은 설명이 수식과 함께 위키에 있다.

개념상 난해한것은 없고, 특정 점A와 그 A가 속한 클러스터 Ac, 바로 옆 클러스터 Bc를 이용함. ‘A’와 ‘Ac의 모든 점’ 사이의 거리 평균과, ‘A’와 ‘Bc의 모든 점’간 거리의 평균을 구해서 그 둘의 차를 본다. 그래서 양수, 음수 모두 가능하지만, regularize해서 -1에서 1사이의 값을 가지게 만든다. 1에 가까울수록 클러스터링이 잘 된것.(=두 클러스터가 제대로 잘 떨어져 있고 A도 Ac로 잘 분류된것)

평가의 척도는 곧 정의(definition)로 쓰일 수도 있는 것이라, 이를 이용해 clustering개수(=k)를 얻어낼 수 있다. k를 변화시켜 가면서, 최대의 S값을 가지도록 만들면 되는 것.