Week04 Clustering

Clustering 사용이유

데이터가 주어졌을 때 어떻게 이루어졌는지 알아보는 방법 중 하나로서 몇 가지의 속성으로 이루어져 있는지, 계층은 어떻게 나누어져 있는지 등을 파악할 수 있다.

Clustering Analysis

데이터가 주어졌을 때 유사한 데이터들끼리 그룹을 지어주는 것

어떠한 데이터가 주어졌을 때 이를 유사한지 유사하지 않은지는 정답이 없다. (나누는 사람 마음)

Partitional Clustering

하나의 데이터는 무조건 하나의 cluster에 매핑시키는 방식의 clustering

Hierarchical Clustering

Partitional clustering과 다르게 하나의 데이터가 다른 cluster에도 속하게 하는 방식의 clustering
예) 나는 대전광역시에 속해있는 사람이면서 대한민국에도 속해있는 사람이다.

Clustering Algorithm

K - Means

알고리즘

장점

간단하다.
대규모의 데이터에도 적용할 수 있다.

단점

처음 K개의 centroid에 따라 결과가 달라진다.
거리에 중점을 두기 때문에 아래와 같은 cluster를 얻기 힘들다.
outlier의 처리가 힘들다. (outlier : 혼자 멀리 떨어져있는 데이터)

Hierarchical clustering

두가지 방법

Agglomerative : 데이터 하나하나가 cluster로 시작하여 병합하며 cluster를 나누는 방식
Divisive : 데이터 전체가 하나의 cluster로 시작하여 cluster를 나누는 방식

Agglomerative 알고리즘

장점

K - Means와 다르게 K개를 설정할 필요가 없다.
우리가 하는 세상의 구조는 계층적이다. ( hierarchical clustering과 잘 어울린다)

단점

한 번 결정된 데이터의 cluster는 바뀌지 않는다.
cluster merge 방식에 따라 결과가 바뀐다.

Cluster Merge 방식

- Min : 두 cluster의 데이터간의 가장 짧은 거리를 기준으로 한다.

상대적으로 outlier와 noise에 민감하다.

- Max : 두 cluster의 데이터간의 가장 긴 거리를 기준으로 한다.

상대적으로 outlier와 noise에 둔감하다.

- Average : 두 cluster의 데이터 값의 거리를 종합한 후 평균을 기준으로 한다.

상대적으로 cluster가 동그란 모양으로 치우치는 경향이 있다.

Density-based methid(DBSCAN)

- Density : number of points within a specified radius(Eps)

- core point : point that has enough density(MinPts)

- border point : is not core point, but it is neighborhood of a core point

- noise point : any point that is not a core point or a border point

알고리즘

장점

cluster의 개수를 정할 필요가 없다.
좀 복잡한 모양의 데이터들도 clustering을 할 수 있다.

단점

density가 충분하지 않다면 원하는 결과를 얻을 수 없다.
Eps, MinPts의 값에 따라 결과가 달라진다.

실생활에 적용

이것저것 섞여있는 데이터가 주어졌을 때 유사한 데이터들끼리 나누어 추후에 데이터 처리하기에 편하다.

저작자표시

'2020_1학기_알고리즘응용' 카테고리의 다른 글

Week08 Viterbi Search (0)	2020.06.07
Week07 Representation Learning and Deep Learning (0)	2020.06.07
Week05 Principal Components Analysis (0)	2020.06.06
Week03 Distance metric (0)	2020.06.02
Week02 Tools for Data Understanding (0)	2020.06.02

나의 자산

Week04 Clustering

Clustering 사용이유

Clustering Analysis

Clustering Algorithm

'2020_1학기_알고리즘응용' 카테고리의 다른 글

댓글

티스토리툴바

Week04 Clustering

Clustering 사용이유

Clustering Analysis

Clustering Algorithm

'2020_1학기_알고리즘응용' 카테고리의 다른 글

관련글

댓글

티스토리툴바