티스토리 뷰
이상하게 두 개의 개념이 혼동되면서 두 개의 역할이 어떻게 다른지 헷갈리는 시점이 있었지만 Andrew Ng 덕분에 해결! 문제는 내가 Optimizer 의 개념을 잘 이해하지 못하면서 생기는 거였음.
Cost function 은 말그대로 Cost 를 구하기 위해서 쓰는 식을 말한다. 반면 Optimizer 은 parameters 를 어떻게 update 할 것인가에 대한 것.
즉, parameter W 를 update 하기 위해서 $w^{[l]} : w^{[l]}- \alpha dw^{[l]}$ 를 쓴다 - 경사 하강법을 이용해서 나온 식임. 여기서 $\alpha$ 는 learning rate 이고, $dw^{[l]}$ 는 $l$ 번째 layer 에서 $w$ 의 미분값. 이 때, $ \alpha dw^{[l]} $ 이 부분을 어떻게 바꿔주느냐에 따라 optimizer 가 달라진다.
RMS Prob 을 이용해서 normalization 을 해주는 방법, RMS 와 momentum 을 합친 Adam 에 따라 update 하기 위해서 쓰이는 값을 어떻게 바꾸느냐가 optimizer 의 핵심.
'Deep learning (일반)' 카테고리의 다른 글
accuracy 가 높아지는데 loss 도 같이 증가한다?! over-fitting 의 증거 (0) | 2023.02.09 |
---|---|
Sparse vectors / Dense vectors (0) | 2020.12.30 |
뉴럴 네트워크 & 뉴런 - units 개수와 weight shape 이해하기! (2) | 2019.10.05 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 뉴런
- nlp
- Elmo
- Attention Mechanism
- Bert
- 벡터
- LM
- Contextual Embedding
- weight vector
- cs224n
- language model
- Neural Language Model
- Statistical Language Model
- word embedding
- neural network
- 언어모델
- 뉴럴넷
- Pre-trained LM
- GPTZero
- 워터마킹
- neurone
- transformer
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함