군집분석
군집분석은 각 객체의 유사성을 측정하여 유사성이 높은 대상의 집단을 분류하는 분석 방법이다. 사전에 집단을 모른채로 진행하기 때문에 비지도학습
에 속한다.
계층적 군집방법
전통적인 군집분석 방법으로 군집의 개수를 마지막에 선정한다. 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법이다. 계층적 군집을 형성하는 방법에는 작은 군집으로부터 출발하여 군집을 병합해 나가는 병합적 방법
과 큰 군집으로부터 출발하여 군집을 분리해 나가는 분할적 방법
이 있다. 계층적 군집의 결과는 덴드로그램(dendrogram)
의 형태로 표현된다. 덴드로그림을 통해 군집들 간의 구조적인 관계를 파악할 수 있다. 항목 간의 거리, 군집 간의 거리를 알 수 있고, 군집 내의 항목 간 유사 정도를 파악하여 군집의 견고성을 해석할 수 있다.
- 합병형
- 단일(최단)연결법(single Linkage Method)
- 완전(최장)연결법(Complete Linkage Method)
- 평균연결법(Average Linkage Method)
- 와드연결법(Ward Linkage Method) : 군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화하기 위해 군집화를 진행한다.
- 중심연결법(Centroid Linkage Method)
- 분리형
- 다이아나 방법
비계층적 군집방법
군집의 모양도 계층적이지 않지만 군집의 개수를 사전에 선정하고 모형을 개발한다.
- 프로토타입(Prototype-based)
- K-중심 군집
- K-평균(K-means)
- K-중앙값(K-median)
- K-메도이드(K-medoid) - 퍼지군집
- 분포기반
- 혼합분포군집(Mixture Distribution Clustering)
- 밀도기반
- 중심밀도군집(Center Density Clustering)
- 밀도기반(Grid-based Clustering)
거리 함수
- 연속형 변수
- 유클리디안 거리 : 변수들의 산포 정도가 전혀 감안되어 있지 않다.
- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법으로 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다.
- 마할라노비스 거리 : 변수들의 산포를 고려하여 이를 표준화한 거리로 두 벡터 사이의 거리를 표본공분산으로 나눠주어야 하며 그룹에 대한 사전 지식이 필요하다.
- 맨하탄 거리 : 최단거리 계산시 사용
- 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한 번에 표현한 공식
- 체비셰프 거리
- 범주형 변수
- 자카드 거리
- 자카드 계수
- 코사인 거리
- 코사인 유사도