ML

군집화

술임 2023. 7. 25. 19:10

: 훈련집합이 주어지면 조건을 만족하는 군집집합을 찾아내는 작업

 

더보기

조건

 

1. 모든 군집이 하나 이상의 샘플을 가지도록 함

2,3. 모든 샘플이 단 하나의 군집에 속하도록 함

 

- 경성 군집화 hard clustering -> 한 샘플이 하나의 군집에 속하도록 강제하는 방식

- 연성 군집화 soft clustering -> 샘플마다 군집에 속하는 정도를 다르게 함

 

- 군집의 개수를 부류의 개수로 간주하는 경우 군집화를 class discovery부류발견 작업이라고 함

-> 부류 발견은 주관성 개입 가능

--> 응용 상황에 따라 k와 군집화 알고리즘이 지닌 하이퍼 매개변수를 적절히 조절해서 합리적인 결과 얻어야 함

 

1. k-means algorithm

(+) 단순하고 성능 좋은 인기 군집화 알고리즘

(-) 군집의 개수 k를 지정해야 하는 단점

 

k-medoids

k-medoids는 샘플 중 대표를 뽑고 뽑힌 대표로 군집 중심을 갱신함

k-means에 비해 잡음에 둔감

 

multi-start k-means 알고리즘

k-평균이 초기 군집 중심에 민감한 문제 해결 가능

서로 다른 초기 군집 중심을 가지고 k-평균을 여러 번 수행한 후 가장 좋은 품질의 해를 선택하는 전략

 

EM 알고리즘

k-means에서는 은닉변수 Z의 추정과 알고리즘의 해인 A의 추정을 번갈아 가며 수행하는 방식으로 동작함

Expectation maximization algorithm : 은닉변수의 추정과 매개변수 추정을 번갈아 수행하며 최적의 해를 찾는 과정

은닉변수 latent variable : 중간에 임시로 사용되다 사라지는 변수

혼합 가우시안을 추정하는 작업에서는 EM 알고리즘이 중요한 역할을 함

E단계 : 은닉변수를 추정하는 단계

M단계 : 매개변수를 추정하는 단계

 

2. 친밀도 전파 알고리즘

: 샘플 간의 similarity로부터 책임 responsibility 행렬R과 가용 availability 행렬 A라는 두 종류의 친밀도 affinity 행렬을 계산하고, 

친밀도 정보를 이용해서 군집을 찾는 알고리즘

 

 

 

 

'ML' 카테고리의 다른 글

공간 변환의 이해  (2) 2023.08.07
밀도 추정  (0) 2023.07.31
Optimization - 2차 미분  (0) 2023.02.13
Hyperparameter Optimization  (0) 2023.01.31
Regularization Method  (0) 2023.01.30