Learning Rate

술임 2023. 1. 12. 22:38

모멘텀; momentum

- ML은 훈련집합으로 그래이디언트를 추정하므로 noise가 섞일 가능성이 큼

--> 그래디언트에 스무딩을 가하면 수렴 속도 개선이 가능함 --> momentum

- w가 이동하는 과정에 일종의 관성을 부여함

--> w를 업데이트할 때마다 이전 단계의 업데이트 방향을 반영함

- 기울기에 속도 개념이 추가됨

- 속도를 나타내는 벡터 v를 사용해서 그래디언트를 스무딩함

- 모멘텀을 적용하지 않는 경우 이동량이 너무 커 적절한 곳을 지나치는 overshooting 현상이 발생할 수 있음

- 주로 0.5, 0.9, 0.99를 사용함

- 현재는 이를 개선한 Nestrov momentum을 주로 사용

- SGD에 비해서 효율적인 학습이 가능 -> 수렴 속도 개선

- SGD의 문제인 local minima, plateau(평탄한 지점) 해결 가능

- learning rate가 높으면 오버슈팅으로 진자운동, 너무 낮으면 해까지 너무 오랜 시간 소요

- 그래디언트는 벡터인데 학습률을 곱하면 k개의 매개변수가 모두 같은 크기의 학습률을 사용할 수 있음

- 적응적 학습률은 매개변수마다 상황에 따라 학습률을 조절해서 사용함

--> 바로 이전 그래디언트와 현재 그래디언트의 부호가 같으면 매개변수 값을 키움

- 오래된 그래디언트와 최근 그래디언트가 알고리즘 끝날때까지 같은 비중의 역할을 하면 충분히 수렴하지 못한채 학습률이 0에 가까워질 수 있음

- RMSProp는 오래된 그래디언트의 영향력을 지수적으로 줄임

- weighted moving average 기법을 사용함

- 0.9, 0.99, 0.999 등을 사용함

- RMSProp에 모멘텀을 추가로 적용한 알고리즘