밀도 추정
밀도 추정 density estimation
어떤 점 x에서 데이터가 발생할 확률, 확률밀도함수 P(x)를 구하는 문제
1. 커널 밀도 추정
1) 히스토그램 방법 histogram method
각 차원, 각 축을 여러 구간으로 나누어 특징 공간을 칸bin의 집합으로 분할 후, 각각의 칸에 있는 샘플의 빈도를 세는 것
(+) 단순해서 이해하기 쉬움
(-) P(x)가 매끄럽지 못하고 계단 모양을 띰
(-) 칸의 크기와 위치에 민감함
2) 커널 밀도 추정법 kernel density estimation method
* 가우시안 커널 사용시 매끄러운 모양의 확률밀도함수 얻을 수 있음
* 커널의 대역폭 h는 사용자가 설정해야 하는 하이퍼 매개변수로서 적절하게 설정해야 함
-> 커널의 대역폭을 적절히 설정하는 일이 매우 중요함
e.g. AMISE(asymptotic mean integrated squared error)
(-)
(1) 훈련집합의 샘플을 모두 저장하고 있어야 하는 메모리 기반 방법
-> 훈련집합 크기에 따라 필요한 메모리가 너무 많아짐
(2) 새로운 샘플이 주어질 때마다 식을 다시 계산해야함
-> 계산 시간의 소요
(3) 특징 공간이 고차원일수록 데이터가 희소
-> 차원의 저주
--> 데이터의 차원이 낮은 경우에 사용
2. 가우시안 혼합
데이터가 일정한 모양의 분포를 따른다는 가정 하에 확률분포를 추정
e.g. 가우시안
모수적 방법과 비모수적 방법
모수적 방법 parametric method
몇 개의 매개변수로 확률분포를 정의함
가우시안을 이용하는 방법
비모수 방법 nonparametric method
매개변수로 정의되는 일정한 모양의 함수를 사용하지 않음
커널 밀도 추정법
* 하나의 가우시안으로 제대로 데이터를 표현할 수 없는 경우
-> 여러 개의 가우시안을 혼합해서 확률밀도를 표현
3. EM 알고리즘
가우시안이 자신의 매개변수를 개선하면, 개선된 가우시안으로 샘플의 소속 정보를 개선
개선된 소속 정보는 가우시안을 더 정확하게 개선
두 과정을 반복함으로써 수렴점에 도달하는 방법
- 일종의 최대 우도 추정법
- 불완전한 데이터, 손실 정보가 포함된 데이터가 주어진 경우에 적용