Clustering 사용이유
데이터가 주어졌을 때 어떻게 이루어졌는지 알아보는 방법 중 하나로서 몇 가지의 속성으로 이루어져 있는지, 계층은 어떻게 나누어져 있는지 등을 파악할 수 있다.
Clustering Analysis
데이터가 주어졌을 때 유사한 데이터들끼리 그룹을 지어주는 것
어떠한 데이터가 주어졌을 때 이를 유사한지 유사하지 않은지는 정답이 없다. (나누는 사람 마음)
Partitional Clustering
- 하나의 데이터는 무조건 하나의 cluster에 매핑시키는 방식의 clustering
Hierarchical Clustering
- Partitional clustering과 다르게 하나의 데이터가 다른 cluster에도 속하게 하는 방식의 clustering
- 예) 나는 대전광역시에 속해있는 사람이면서 대한민국에도 속해있는 사람이다.
Clustering Algorithm
K - Means
알고리즘
장점
- 간단하다.
- 대규모의 데이터에도 적용할 수 있다.
단점
- 처음 K개의 centroid에 따라 결과가 달라진다.
- 거리에 중점을 두기 때문에 아래와 같은 cluster를 얻기 힘들다.
- outlier의 처리가 힘들다. (outlier : 혼자 멀리 떨어져있는 데이터)
Hierarchical clustering
두가지 방법
- Agglomerative : 데이터 하나하나가 cluster로 시작하여 병합하며 cluster를 나누는 방식
- Divisive : 데이터 전체가 하나의 cluster로 시작하여 cluster를 나누는 방식
Agglomerative 알고리즘
장점
- K - Means와 다르게 K개를 설정할 필요가 없다.
- 우리가 하는 세상의 구조는 계층적이다. ( hierarchical clustering과 잘 어울린다)
단점
- 한 번 결정된 데이터의 cluster는 바뀌지 않는다.
- cluster merge 방식에 따라 결과가 바뀐다.
Cluster Merge 방식
- Min : 두 cluster의 데이터간의 가장 짧은 거리를 기준으로 한다.
- 상대적으로 outlier와 noise에 민감하다.
- Max : 두 cluster의 데이터간의 가장 긴 거리를 기준으로 한다.
- 상대적으로 outlier와 noise에 둔감하다.
- Average : 두 cluster의 데이터 값의 거리를 종합한 후 평균을 기준으로 한다.
- 상대적으로 cluster가 동그란 모양으로 치우치는 경향이 있다.
Density-based methid(DBSCAN)
- Density : number of points within a specified radius(Eps)
- core point : point that has enough density(MinPts)
- border point : is not core point, but it is neighborhood of a core point
- noise point : any point that is not a core point or a border point
알고리즘
장점
- cluster의 개수를 정할 필요가 없다.
- 좀 복잡한 모양의 데이터들도 clustering을 할 수 있다.
단점
- density가 충분하지 않다면 원하는 결과를 얻을 수 없다.
- Eps, MinPts의 값에 따라 결과가 달라진다.
실생활에 적용
이것저것 섞여있는 데이터가 주어졌을 때 유사한 데이터들끼리 나누어 추후에 데이터 처리하기에 편하다.
'2020_1학기_알고리즘응용' 카테고리의 다른 글
Week08 Viterbi Search (0) | 2020.06.07 |
---|---|
Week07 Representation Learning and Deep Learning (0) | 2020.06.07 |
Week05 Principal Components Analysis (0) | 2020.06.06 |
Week03 Distance metric (0) | 2020.06.02 |
Week02 Tools for Data Understanding (0) | 2020.06.02 |
댓글