'Deep learning' 카테고리의 글 목록

import torch import torchvision import torchvision.transforms as transforms import torch.nn as nn import torch.nn.functional as F import torch.optim as optim import os, sys import random, math, time import shutil import numpy as np import matplotlib.pyplot as plt LEARNING_RATE = 1e-3 MOMENTUM = 0.9 EPOCHS = 10 BATCH_SIZE = 4 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') p..

1. Gradient Descent(경사하강법) Gradient descent는 θθ를 미지수로 갖는 목적함수 J(θ)J(θ)를 최소화시키는 방법이다. 어떤 위치에 있는 θθ를 그 위치에서의 gradient인 ∇θJ(θ)∇θJ(θ)의 반대 방향으로 이동시켜준다. 일반적인 gradient descent의 업데이트 식은 다음과 같다. θt+1=θt−η∇θJ(θ)θt+1=θt−η∇θJ(θ) 여기서 ηη는 learning rate로 gradient 반대 방향으로 얼마나 업데이트할 것인지 결정한다. 작은 ηη는 수렴 속도를 늦출 것이고, 큰 ηη는 minimum을 그냥 지나쳐버릴 수 있고 심하면 발산한다. 얼마나 많은 데이터를 목적함수의 gradient 계산에 사용할지에 따라 크게 세 가지의 gradient de..

티스토리툴바