모멘텀; momentum - ML은 훈련집합으로 그래이디언트를 추정하므로 noise가 섞일 가능성이 큼 --> 그래디언트에 스무딩을 가하면 수렴 속도 개선이 가능함 --> momentum - w가 이동하는 과정에 일종의 관성을 부여함 --> w를 업데이트할 때마다 이전 단계의 업데이트 방향을 반영함 - 기울기에 속도 개념이 추가됨 - 속도를 나타내는 벡터 v를 사용해서 그래디언트를 스무딩함 - 모멘텀을 적용하지 않는 경우 이동량이 너무 커 적절한 곳을 지나치는 overshooting 현상이 발생할 수 있음 - 주로 0.5, 0.9, 0.99를 사용함 - 현재는 이를 개선한 Nestrov momentum을 주로 사용 모멘텀의 장점 - SGD에 비해서 효율적인 학습이 가능 -> 수렴 속도 개선 - SGD의 ..