"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." 석사논문 쓰면서 수없이 봤는데 누가 설명해보라고하면 자신 없을 것 같았던 N-gram language model 드디어 정리해본다. 우선 Probabilistc language model 이란 뭐냐? Sentence / phrase 가 주어졌을 때 그게 얼마나 likely 한지를 probability 로 나타내는 모델임. 그럼 그걸 어떻게 계산하냐? 2가지 방법이 있다. 첫번째로 Joint probabilty 인 $P(W)$ 즉, $P(w_{1}, w_{2}, w_{3} ...w_{n-1}, w_{n} )$ 을 구하거나 아니면 conditional probabilty ..
"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." NLP 에서 Dan Jurafsky 만큼 설명 간결하고 알아듣기 쉽게 하는 사람 없을듯... 최고 그동안 나름 많은 NLP 강의를 들으면서 수도 없이 들었던 Naïve Bayes, Baysian Rules... 근데 용어 정리가 안 되다 보니 용어만 듣고서는 이게 뭐더라? 하는 경우가 너무 많아서 back to basics 을 통해 정리 할 필요성을 느꼈다. 그 첫번째 주제가 바로 Naïve Bayes! 바로 고고. 배우면서 등장한 용어는 핑크 형광색으로 표시해놨다. 1. Text Classifier Model 이란? 아래의 그림처럼 텍스트가 주어졌을 때, positi..
batch-size 는 중요한 hyper parameter 중에 하나임. Batch size 가 너무 클 때: overfitting Batch size 가 너무 작을 때: noisy / slow convergence => 하나의 data sample 미치는 영향이 너무 커지기 때문에 each step 이 noisy 이 때, GPU 가 하나밖에 없고, memory limitation 도 있어서 내가 원하는 batch-size 로 training 하기 어려울 때 쓰는 테크닉이 바로 Accumulated gradients ! GPU memory 가 부족할 때는 mini-batch 란 것을 또 사용할 수 있음. batch 1개당 error 가 back propagate 되면서 optimization step 한..
"해당 포스팅은 Stanford CS224N - 2019 winter 강좌를 정리한 내용입니다." Transformer 를 이해하기 위해서 오랜만에 다시 찾은 CS224N. 13번째 강의는 BERT, ElMo 등을 비롯한 transformer 모델이 어떻게 등장하게 됐는지부터 시작해서 transformer 모델의 구조, 그리고 대표적인 모델인 BERT에 대해서 좀 더 자세히 알아본다. 1. 기존 word vectors 의 한계 이전에 배웠던 word vector 모델로는 Word2vec, GloVe, fastText 등이있다. Pre-trained word vector model 이 배운 Voabulary 에 대해서 각 단어마다 매칭되는 word vector 가 있고, index를 사용해서 필요한 단어의..
Traditional word embedding 방식은, fixed vocabulary 가 있고 각 vocabulary 마다 학습된 word embedding 이 있는 형태다. 마치 사전처럼 각 단어마다 그 단어의 word embedding 이 있어서 원하는 단어의 index 만 알면, 그 단어의 word embedding 을 가지고 올 수 있다. 반면, 이 단어의 word embedding 은 항상 고정된 상태로 (static) 바뀌지 않는다. 문제는 동음이의어의 단어를 embedding 할 때이다. Sentence 1: The mouse ran away, squeaking with fear. Sentence 2: Click the left mouse button twice to highlight th..
"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." 이번 수업은 Sequence Model 에 대해 얘기하고, Sequence model 에 적합한 Recurrent Neural Network 에 대해서 배워본다. 1. Sequence model 의 정의 우선, Sequence model 이란 건 뭐고 왜 그게 필요한 거지? Sequence model 이란, sequence data 를 다루기에 적합한 모델을 의미한다. Sequence data 라는 건 연속적인 데이터를 의미하는데, 예를 들어 음성, 음악 (음의 연속), 텍스트, 비디오 등 다 연속적인 데이터이다. Sequence model 이란 이런 데이터를 다..
"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." Machine Learning 모델을 트레이닝할 때 생길 수 있는 문제로는 high bias (편향) 혹은 high variace (분산) 가 있다. 그리고 모델이 이 중 어떤 문제를 갖고 있냐에 따라서 해결방법 또한 다르다. 그런데 도대체가 편향과 분산이란 단어가 와닿지도 않을 뿐더러, 거기에 맞는 해결법도 맨날 헷갈려서 기록해둬야지 하다가 드디어 함.. 참고로 강의는 2번째 코스인 Improving Deep Neural Networks 의 Week1 강의를 정리했다. 1. Bias 와 Variance 정의 한 마디로 정의하면 Bias (편향) - Underfi..
"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." 이번 주 수업의 coding lab 에서도 배울 게 많았기 때문에 여기에 짧게 정리. 그 전에 알아둘 게 있는게 Convolution Neural Network 를 배울 때, 보통 conv layer / max pooling layer / fully-connected layer 로 이루어졌다고 배웠다. 그런데, fully-connected layer 를 conv layer 로 표현 ? 계산하는 게 가능하다 (왜 그렇게 하는지는 모르겠는데 이점이 있으니까 그렇게 하겠지?) 아래 슬라이드에서 첫번째 줄이 이전에 배운 classic 한 CNN 구조. conv + poo..
"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." 1. Object Detection 의 Y 라벨 우선 object localization &Classification 을 할 때 주어지는 Y label 을 살펴보면 다음의 3가지이다. 해당 box 에 object 가 있을 확률 (background 제외) bounding box 좌표 Class probability 예를 들면 이렇다. $$Y = \begin{bmatrix} P_c\\ b_x\\ b_y\\ b_w\\ b_h\\ c_1\\ c_2\\ c_3\\ \end{bmatrix}$$ 여기서 $P_c$ 가 object 가 있을 확률 $b$ 로 시작하는 것들이 bo..
- Total
- Today
- Yesterday
- Attention Mechanism
- word embedding
- 뉴런
- cs224n
- Elmo
- transformer
- Contextual Embedding
- 뉴럴넷
- nlp
- neural network
- language model
- 언어모델
- neurone
- 벡터
- 워터마킹
- Pre-trained LM
- Bert
- Neural Language Model
- weight vector
- GPTZero
- LM
- Statistical Language Model
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |