최말짱 블로그

군집분석 본문

데이터청년캠퍼스

군집분석

최말짱 2022. 7. 12. 13:44
728x90

 

 

군집분석이란?

- 각 객체의 유사성을 측정하여 비슷한 특성을 가진 그룹을 찾는데 사용되는 분석 방법

- 사람들의 나이와 경제적 수입이 유사한 그룹을 찾아내어 해당 그룹의 공통적인 특성(직업, 거주지역, 근무환경 등)을 분류할 수 있음. 

 

ex) 화물 배송 경로 개선

- 고객 위치를 기준으로 유사한 지역 군집하여 더 효율적인 경로가 있는지 

- 투입 차량 16대 -> 14대 감소 

- 차량 이동거리 감소의 효과 

 

 

분할 기반 군집분석 클러스터링 : k-means(= k-means++, k-centroid, k-medoid..) 

분할 기반은 주로 기법 이름 앞에 k가 붙는다. 다 비슷비슷하다고 생각하면 됨 !

 

- 데이터들이 있을 때, 임의로 데이터 들을 나눈다. 

- 반복적으로 수많은 분할을 수행 검토함( 조금씩 군집을 바꿔가면서 가장 좋은 군집을 찾아감. 어떻게 보면 낭비적인..? 방법)

- 각 군집은 중심점에 의해 표현됨

- 객체들이 어느 중심점에 가까운가에 따라 군집을 결정

 

K-means 군집 분석 알고리즘

주어진 k로, 4단계 수행

1. 모든 객체들은 k개의 그룹으로 분할

2. 분할한 클러스터 내의 객체들로부터 새로 seed 객체를 탐색, 클러스터의 중심(또는 평균) 값을 centroid로 정함

3. 각 객체들을 인접한 seed 객체로 할당함

4. 클러스터가 변화하지 않을때까지 2번째 단계부터 반복함

 

ex) 물류업체는 택배배송을 위해 각 택배 도착지까지 배송거리를 최소화

- 각 도착지들을 모두 오가는 비용을 줄이고자, 중간지점을 찾아 인접 도착지들로 배송

- 도착지들을 군집분석을 수행, 인접한 도착지 군집을 분석

- 거리를 최소로 하는 군집을 찾기 위해 k-means 수행

 

 

 

 

 

 

 

 

'데이터청년캠퍼스' 카테고리의 다른 글

데이터 마이닝 방법론(CRISP-DM, KDD)  (0) 2022.07.18
연관규칙 알고리즘  (0) 2022.07.12
(1-2)빅데이터를 위한 파이썬  (0) 2022.07.09
연관분석의 지표  (0) 2022.07.08
연관분석의 이론적 배경  (0) 2022.07.07