매화of사군자 2020. 6. 5. 20:47

Clustering 사용이유

데이터가 주어졌을 때 어떻게 이루어졌는지 알아보는 방법 중 하나로서 몇 가지의 속성으로 이루어져 있는지, 계층은 어떻게 나누어져 있는지 등을 파악할 수 있다.

 

Clustering Analysis

데이터가 주어졌을 때 유사한 데이터들끼리 그룹을 지어주는 것

 

어떠한 데이터가 주어졌을 때 이를 유사한지 유사하지 않은지는 정답이 없다. (나누는 사람 마음)

여러가지 방식의 clustering

Partitional Clustering

  • 하나의 데이터는 무조건 하나의 cluster에 매핑시키는 방식의 clustering

 

Hierarchical Clustering

  • Partitional clustering과 다르게 하나의 데이터가 다른 cluster에도 속하게 하는 방식의 clustering
  • 예) 나는 대전광역시에 속해있는 사람이면서 대한민국에도 속해있는 사람이다.

Clustering Algorithm

K - Means

 

알고리즘

K - Means sudo

장점

  • 간단하다.
  • 대규모의 데이터에도 적용할 수 있다.

단점

  • 처음 K개의 centroid에 따라 결과가 달라진다.
  • 거리에 중점을 두기 때문에 아래와 같은 cluster를 얻기 힘들다.
  • outlier의 처리가 힘들다. (outlier : 혼자 멀리 떨어져있는 데이터)

Hierarchical clustering

 

 

두가지 방법

  • Agglomerative : 데이터 하나하나가 cluster로 시작하여 병합하며 cluster를 나누는 방식
  • Divisive : 데이터 전체가 하나의 cluster로 시작하여 cluster를 나누는 방식

Agglomerative 알고리즘

장점

  • K - Means와 다르게 K개를 설정할 필요가 없다.
  • 우리가 하는 세상의 구조는 계층적이다. ( hierarchical clustering과 잘 어울린다)

단점

  • 한 번 결정된 데이터의 cluster는 바뀌지 않는다.
  • cluster merge 방식에 따라 결과가 바뀐다.

Cluster Merge 방식

 

- Min : 두 cluster의 데이터간의 가장 짧은 거리를 기준으로 한다.

  • 상대적으로 outlier와 noise에 민감하다.

- Max : 두 cluster의 데이터간의 가장 긴 거리를 기준으로 한다.

  • 상대적으로 outlier와 noise에 둔감하다.

- Average : 두 cluster의 데이터 값의 거리를 종합한 후 평균을 기준으로 한다.

  • 상대적으로 cluster가 동그란 모양으로 치우치는 경향이 있다.

Density-based methid(DBSCAN)

 

- Density : number of points within a specified radius(Eps)

- core point : point that has enough density(MinPts)

- border point : is not core point, but it is neighborhood of a core point

- noise point : any point that is not a core point or a border point

 

Eps = 10, MinPts = 4

 

 

알고리즘

 

장점

  • cluster의 개수를 정할 필요가 없다.
  • 좀 복잡한 모양의 데이터들도 clustering을 할 수 있다.

단점

  • density가 충분하지 않다면 원하는 결과를 얻을 수 없다.
  • Eps, MinPts의 값에 따라 결과가 달라진다.

실생활에 적용

이것저것 섞여있는 데이터가 주어졌을 때 유사한 데이터들끼리 나누어 추후에 데이터 처리하기에 편하다.