Data Preprocessing

술임 2023. 1. 12. 21:37

데이터 전처리

데이터 정규화 normalization

- 모든 feature가 양수인 경우 학습이 느려짐

--> 특징값의 평균이 0이 되도록 변환을 수행해야 함

--> 특징 별로 독립적으로 평균을 구한 다음 원래 feature에서 평균을 빼는 연산 수행 시 쉽게 변환 가능

- feature의 규모가 다를 경우

--> 모든 특징의 표준편차를 1로 통일

--> 특징별로 독립적으로 표준편차 구한 다음 특징값을 표준편차로 나눔

* 특정 feature가 다른 feature보다 더 중요하게 작용할 경우 표준편차를 조절하면 됨

nominal value

: 크기 개념을 가지지 않은 값 e.g. 파란색, 흰색, 보라색

--> one-hot 방식의 코드로 변환함

신경망

= 다수의 입력 신호를 받아서 하나의 신호를 출력함 like 실제 뉴런에서 전기신호를 내보내 정보를 전달

- 각 입력 신호에는 고유한 가중치 weight가 부여됨

- 데이터를 각기 다른 비중으로 다음 은닉층으로 전달시키기 위하여 가중치를 다르게 설정해야함

가중치 초기화

- 신경망의 가중치는 난수를 생성해서 초기화해야함

- 대칭적 가중치를 가질 경우 노드는 같은 일을 하는 셈이 되므로 중복성 문제가 발생함 --> 대칭 파괴 symmetry break

난수

- 가우시안 분포에서 추출하나 균일 분포에서 추출하나 큰 차이 없음

- 난수의 범위가 중요함

--> 가중치가 0에 가깝게 설정되면 그래디언트가 작아져 학습이 매우 느려짐 ; 너무 크면 과잉적합에 빠질 수 있음

Bias

- 어떤 방식을 사용하든 크게 문제 되지 않음

- 보통 0으로 초기화함

'ML' 카테고리의 다른 글

Batch Normalization (0)	2023.01.18
Learning Rate (0)	2023.01.12
활성함수와 목적함수 (0)	2023.01.12
생성 모델 (0)	2023.01.11
CNN (0)	2023.01.10

현재글Data Preprocessing

Hello World!