
batch-size 는 중요한 hyper parameter 중에 하나임. Batch size 가 너무 클 때: overfitting Batch size 가 너무 작을 때: noisy / slow convergence => 하나의 data sample 미치는 영향이 너무 커지기 때문에 each step 이 noisy 이 때, GPU 가 하나밖에 없고, memory limitation 도 있어서 내가 원하는 batch-size 로 training 하기 어려울 때 쓰는 테크닉이 바로 Accumulated gradients ! GPU memory 가 부족할 때는 mini-batch 란 것을 또 사용할 수 있음. batch 1개당 error 가 back propagate 되면서 optimization step 한..

"해당 포스팅은 Stanford CS224N - 2019 winter 강좌를 정리한 내용입니다." Transformer 를 이해하기 위해서 오랜만에 다시 찾은 CS224N. 13번째 강의는 BERT, ElMo 등을 비롯한 transformer 모델이 어떻게 등장하게 됐는지부터 시작해서 transformer 모델의 구조, 그리고 대표적인 모델인 BERT에 대해서 좀 더 자세히 알아본다. 1. 기존 word vectors 의 한계 이전에 배웠던 word vector 모델로는 Word2vec, GloVe, fastText 등이있다. Pre-trained word vector model 이 배운 Voabulary 에 대해서 각 단어마다 매칭되는 word vector 가 있고, index를 사용해서 필요한 단어의..
Traditional word embedding 방식은, fixed vocabulary 가 있고 각 vocabulary 마다 학습된 word embedding 이 있는 형태다. 마치 사전처럼 각 단어마다 그 단어의 word embedding 이 있어서 원하는 단어의 index 만 알면, 그 단어의 word embedding 을 가지고 올 수 있다. 반면, 이 단어의 word embedding 은 항상 고정된 상태로 (static) 바뀌지 않는다. 문제는 동음이의어의 단어를 embedding 할 때이다. Sentence 1: The mouse ran away, squeaking with fear. Sentence 2: Click the left mouse button twice to highlight th..
- Total
- Today
- Yesterday
- Bert
- GPTZero
- nlp
- Statistical Language Model
- Neural Language Model
- Elmo
- 언어모델
- Contextual Embedding
- language model
- 뉴럴넷
- neural network
- 뉴런
- cs224n
- transformer
- word embedding
- Attention Mechanism
- 벡터
- weight vector
- Pre-trained LM
- 워터마킹
- neurone
- LM
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |