'deepleaning #optimization #adam #sgd #nag' 태그의 글 목록

1. Gradient Descent(경사하강법) Gradient descent는 θθ를 미지수로 갖는 목적함수 J(θ)J(θ)를 최소화시키는 방법이다. 어떤 위치에 있는 θθ를 그 위치에서의 gradient인 ∇θJ(θ)∇θJ(θ)의 반대 방향으로 이동시켜준다. 일반적인 gradient descent의 업데이트 식은 다음과 같다. θt+1=θt−η∇θJ(θ)θt+1=θt−η∇θJ(θ) 여기서 ηη는 learning rate로 gradient 반대 방향으로 얼마나 업데이트할 것인지 결정한다. 작은 ηη는 수렴 속도를 늦출 것이고, 큰 ηη는 minimum을 그냥 지나쳐버릴 수 있고 심하면 발산한다. 얼마나 많은 데이터를 목적함수의 gradient 계산에 사용할지에 따라 크게 세 가지의 gradient de..