상세 컨텐츠

본문 제목

Gradient descent 분류

Machine learning

by South Korea life 2021. 1. 12. 11:12

본문

728x90
반응형

Gradient descent는 objective 함수의 gradient 계산에 얼마나 많은 데이터를 적용하는가에 따라, 방법론이 나뉜다고 한다. Gradient descent에 적용하는 데이터의 양에 따라서, parameter 업데이트의 정확도와 업데이트를 행하기 위해 걸리는 시간 간의 trade off가 있다고 한다.

 

  • Batch gradient descent
    정통적인 gradient descent는 batch gradient descent를 말하며, 모든 학습 데이터세트에 대하여 cost 함수의 gradient를 계산한다.
    Batch gradient descent는 한번 업데이트 시, 전체 데이터세트에 대하여 gradient를 수행하기 때문에 처리 속도가 느리고 메모리 문제가 발생할 가능성도 있다.
    Batch gradient descent는 convex error 표면에서 global minimum과 non-convex 표면에서 local minimum 수렴을 보장하는 것으로 알려져있다.

  • Stochastic gradient descent (SGD)
    SGD는 Batch gradient descent와 달리 각 학습 샘플에 대하여 parameter 업데이트를 수행한다. Batch gradient descent가 지속적으로 유사한 샘플들에 대하여 parameter 업데이트를 수행하고 많은 계산량이 필요한 반면, SGD는 매 학습 샘플에 대하여 parameter 업데이트를 수행함으로써 중복적인 parameter 업데이트를 줄이고 계산량도 줄였다. 즉, SGD는 batch gradient descent보다 훨씬 parameter 업데이트가 빠르고, 온라인 학습에 활용된다고 한다. 

    SGD는 잦은 parameter 업데이트를 높은 분산으로 수행함으로 object 함수의 수렴 그래프가 보통 변동이 매우 심하다. 
    Batch gradient descent는 특정 local minimum에서 수렴할수 있는 반면, SGD는 fluctuation이 심하기 때문에 local minimum을 벗어나서 더 나은 local minimum으로 찾아갈 가능성이 존재한다. 
    하지만, SGD의 큰 fluctuation은 정확한 minimum에 수렴하는데 단점이기도 하다. 이러한 단점은 learning rate를 학습 도중 지속적으로 줄여감으로써, 어느정도 줄일 수 있다. 이럴 경우, batch gradient descent와 유사한 수렴도를 보여준다고 한다. 
     
  • Mini-batch gradient descent
    Mini-batch gradient descent는 Batch  gradient descent의 장점과 SGD의 장점을 모았다. 즉, n개의 학습 샘플들로 이루어진 모든 mini-batch에 대하여 parameter 업데이트를 수행한다. 
    이 방식은, parameter 업데이트의 variance를 줄이고, mini-batch에 매우 최적화된 matrix optimization을 사용할 수 있다. Mini-batch의 크기는 보통 50~256정도로 적용한다고 한다. Mini-batch gradient는 전형적인 선택 알고리즘이다. 신경망과 SGD는 보통 mini-batch에 사용된다. 

  • 참고
    Vanilla mini-batch gradient descent에 있어서, 지속적인 연구가 필요한 부분들

    (1) 적절한 learning rate 선택
        1) Learning rate scheduler 
           => 학습 데이터마다 일괄 적용은 어려움...
    (2) parameter 특성에 따른 learning rate 적용
        - 모든 parameter가 inference에 같은 기여를 하는 것은 아님...
    (3) local minimum이나 saddle point에서의 수렴...
     

 

728x90
반응형

관련글 더보기

댓글 영역