"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." NLP 에서 Dan Jurafsky 만큼 설명 간결하고 알아듣기 쉽게 하는 사람 없을듯... 최고 그동안 나름 많은 NLP 강의를 들으면서 수도 없이 들었던 Naïve Bayes, Baysian Rules... 근데 용어 정리가 안 되다 보니 용어만 듣고서는 이게 뭐더라? 하는 경우가 너무 많아서 back to basics 을 통해 정리 할 필요성을 느꼈다. 그 첫번째 주제가 바로 Naïve Bayes! 바로 고고. 배우면서 등장한 용어는 핑크 형광색으로 표시해놨다. 1. Text Classifier Model 이란? 아래의 그림처럼 텍스트가 주어졌을 때, positi..
batch-size 는 중요한 hyper parameter 중에 하나임. Batch size 가 너무 클 때: overfitting Batch size 가 너무 작을 때: noisy / slow convergence => 하나의 data sample 미치는 영향이 너무 커지기 때문에 each step 이 noisy 이 때, GPU 가 하나밖에 없고, memory limitation 도 있어서 내가 원하는 batch-size 로 training 하기 어려울 때 쓰는 테크닉이 바로 Accumulated gradients ! GPU memory 가 부족할 때는 mini-batch 란 것을 또 사용할 수 있음. batch 1개당 error 가 back propagate 되면서 optimization step 한..
"해당 포스팅은 Stanford CS224N - 2019 winter 강좌를 정리한 내용입니다." Transformer 를 이해하기 위해서 오랜만에 다시 찾은 CS224N. 13번째 강의는 BERT, ElMo 등을 비롯한 transformer 모델이 어떻게 등장하게 됐는지부터 시작해서 transformer 모델의 구조, 그리고 대표적인 모델인 BERT에 대해서 좀 더 자세히 알아본다. 1. 기존 word vectors 의 한계 이전에 배웠던 word vector 모델로는 Word2vec, GloVe, fastText 등이있다. Pre-trained word vector model 이 배운 Voabulary 에 대해서 각 단어마다 매칭되는 word vector 가 있고, index를 사용해서 필요한 단어의..
- Total
- Today
- Yesterday
- transformer
- cs224n
- Statistical Language Model
- Bert
- LM
- 뉴럴넷
- 언어모델
- language model
- word embedding
- Contextual Embedding
- neurone
- neural network
- 뉴런
- Attention Mechanism
- Pre-trained LM
- Neural Language Model
- Elmo
- 워터마킹
- nlp
- GPTZero
- 벡터
- weight vector
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |