경사하강법 - 머신러닝 최적화는 1차 미분(그래디언트)를 사용하는 경사하강법SGD로 품 -> 머신 러닝의 주류 알고리즘 -> 경사 하강법은 깊은 CNN을 성공적으로 학습함 -> 수렴 속도 향상이나 하이퍼파라미터를 둔감하게 만들어서 하이퍼 파라미터 최적화 필요성이나 규제 기법을 줄이는 개선 필요 * [Bottou2017] 논문에서는 경사 하강법 개선책을 1) 그래디언트의 잡음(미니배치 사용)을 줄이고 2) 2차 미분을 사용하는 것으로 제시함 2차 미분 - 1차 미분보다 수렴 속도가 훨씬 빠름 --> 1처 미분(그래디언트)는 현재 위치에서의 지역적 기울기만 알려줌 --> 최저점을 지나칠 수 있어서 작은 학습률로 조금씩 최저점으로 다가가는데 속도 저하 - 잡음과 변화가 심한 불량 조건 목적함수를 최적화해야함 ..