ML

밀도 추정

술임 2023. 7. 31. 15:16

밀도 추정 density estimation

어떤 점 x에서 데이터가 발생할 확률, 확률밀도함수 P(x)를 구하는 문제

 

1. 커널 밀도 추정

1) 히스토그램 방법 histogram method

각 차원, 각 축을 여러 구간으로 나누어 특징 공간을 칸bin의 집합으로 분할 후, 각각의 칸에 있는 샘플의 빈도를 세는 것

(+) 단순해서 이해하기 쉬움

(-) P(x)가 매끄럽지 못하고 계단 모양을 띰

(-) 칸의 크기와 위치에 민감함

 

2) 커널 밀도 추정법 kernel density estimation method

* 가우시안 커널 사용시 매끄러운 모양의 확률밀도함수 얻을 수 있음

* 커널의 대역폭 h는 사용자가 설정해야 하는 하이퍼 매개변수로서 적절하게 설정해야 함

-> 커널의 대역폭을 적절히 설정하는 일이 매우 중요함

e.g. AMISE(asymptotic mean integrated squared error)

 

(-)

(1) 훈련집합의 샘플을 모두 저장하고 있어야 하는 메모리 기반 방법

-> 훈련집합 크기에 따라 필요한 메모리가 너무 많아짐

(2) 새로운 샘플이 주어질 때마다 식을 다시 계산해야함

-> 계산 시간의 소요

(3) 특징 공간이 고차원일수록 데이터가 희소

-> 차원의 저주

 

--> 데이터의 차원이 낮은 경우에 사용

 

2. 가우시안 혼합

데이터가 일정한 모양의 분포를 따른다는 가정 하에 확률분포를 추정

e.g. 가우시안

 

모수적 방법과 비모수적 방법

모수적 방법 parametric method

몇 개의 매개변수로 확률분포를 정의함

가우시안을 이용하는 방법

 

비모수 방법 nonparametric method

매개변수로 정의되는 일정한 모양의 함수를 사용하지 않음

커널 밀도 추정법

 

* 하나의 가우시안으로 제대로 데이터를 표현할 수 없는 경우

-> 여러 개의 가우시안을 혼합해서 확률밀도를 표현

 

3. EM 알고리즘

가우시안이 자신의 매개변수를 개선하면, 개선된 가우시안으로 샘플의 소속 정보를 개선

개선된 소속 정보는 가우시안을 더 정확하게 개선

두 과정을 반복함으로써 수렴점에 도달하는 방법

 

- 일종의 최대 우도 추정법

- 불완전한 데이터, 손실 정보가 포함된 데이터가 주어진 경우에 적용