'분류 전체보기' 카테고리의 글 목록 (2 Page)

Transformer / BERT / GPT2 / BART 의 차이

Transformer 구조라는 건 encoder - decoder 로 이루어진 seq to seq model 이고 거기에 attention mechanism 이 핵심 요소이다. BERT 는 transformer 의 encoder blocks 만 있는 모델 GPT2 는 transformer 의 decoder blocks 만 있는 모델 BART 는 bert encoder + gpt2 decoder 이라는 것. 그럼 결국 transformer 아닌가..? => architecture 이랑 pre-training 에서 조금씩 차이가 있다고 함 BERT 는 그니까 self attention + feed forward layer 로 이루어진 encoder block 의 stack 으로 이루져 있고 GPT2 는 ma..

NLP /이것저것 2021. 12. 30. 20:45

N-gram language model

"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." 석사논문 쓰면서 수없이 봤는데 누가 설명해보라고하면 자신 없을 것 같았던 N-gram language model 드디어 정리해본다. 우선 Probabilistc language model 이란 뭐냐? Sentence / phrase 가 주어졌을 때 그게 얼마나 likely 한지를 probability 로 나타내는 모델임. 그럼 그걸 어떻게 계산하냐? 2가지 방법이 있다. 첫번째로 Joint probabilty 인 $P(W)$ 즉, $P(w_{1}, w_{2}, w_{3} ...w_{n-1}, w_{n} )$ 을 구하거나 아니면 conditional probabilty ..

NLP /이것저것 2021. 12. 20. 06:30

Naïve Bayes Classifier

"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." NLP 에서 Dan Jurafsky 만큼 설명 간결하고 알아듣기 쉽게 하는 사람 없을듯... 최고 그동안 나름 많은 NLP 강의를 들으면서 수도 없이 들었던 Naïve Bayes, Baysian Rules... 근데 용어 정리가 안 되다 보니 용어만 듣고서는 이게 뭐더라? 하는 경우가 너무 많아서 back to basics 을 통해 정리 할 필요성을 느꼈다. 그 첫번째 주제가 바로 Naïve Bayes! 바로 고고. 배우면서 등장한 용어는 핑크 형광색으로 표시해놨다. 1. Text Classifier Model 이란? 아래의 그림처럼 텍스트가 주어졌을 때, positi..

NLP /이것저것 2021. 12. 6. 06:49

Accumulated gradients

batch-size 는 중요한 hyper parameter 중에 하나임. Batch size 가 너무 클 때: overfitting Batch size 가 너무 작을 때: noisy / slow convergence => 하나의 data sample 미치는 영향이 너무 커지기 때문에 each step 이 noisy 이 때, GPU 가 하나밖에 없고, memory limitation 도 있어서 내가 원하는 batch-size 로 training 하기 어려울 때 쓰는 테크닉이 바로 Accumulated gradients ! GPU memory 가 부족할 때는 mini-batch 란 것을 또 사용할 수 있음. batch 1개당 error 가 back propagate 되면서 optimization step 한..

NLP /이것저것 2021. 8. 3. 17:00

[CS224N-2019W] 13. Contextual Word Representations and Pretraining

"해당 포스팅은 Stanford CS224N - 2019 winter 강좌를 정리한 내용입니다." Transformer 를 이해하기 위해서 오랜만에 다시 찾은 CS224N. 13번째 강의는 BERT, ElMo 등을 비롯한 transformer 모델이 어떻게 등장하게 됐는지부터 시작해서 transformer 모델의 구조, 그리고 대표적인 모델인 BERT에 대해서 좀 더 자세히 알아본다. 1. 기존 word vectors 의 한계 이전에 배웠던 word vector 모델로는 Word2vec, GloVe, fastText 등이있다. Pre-trained word vector model 이 배운 Voabulary 에 대해서 각 단어마다 매칭되는 word vector 가 있고, index를 사용해서 필요한 단어의..

NLP /CS224n 2021. 5. 23. 17:26

Word embedding vs Contextual embedding

Traditional word embedding 방식은, fixed vocabulary 가 있고 각 vocabulary 마다 학습된 word embedding 이 있는 형태다. 마치 사전처럼 각 단어마다 그 단어의 word embedding 이 있어서 원하는 단어의 index 만 알면, 그 단어의 word embedding 을 가지고 올 수 있다. 반면, 이 단어의 word embedding 은 항상 고정된 상태로 (static) 바뀌지 않는다. 문제는 동음이의어의 단어를 embedding 할 때이다. Sentence 1: The mouse ran away, squeaking with fear. Sentence 2: Click the left mouse button twice to highlight th..

NLP /이것저것 2021. 5. 4. 17:29

Sparse vectors / Dense vectors

매우 기본적인 것 같은데 몰랐던 것. Sparse vectors 와 Dense vectors 가 뭘까? Sparce vectors 은 vectors 내 대부분의 값이 0인 것 (예: one-hot vectors) 반대로 Dense vectors 는 vectors 내 대부분의 값이 0가 아닌 것 (예: word embedding vectors)

Deep learning (일반) 2020. 12. 30. 23:26

[Course 5 - Week 1] Recurrent Neural Network

"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." 이번 수업은 Sequence Model 에 대해 얘기하고, Sequence model 에 적합한 Recurrent Neural Network 에 대해서 배워본다. 1. Sequence model 의 정의 우선, Sequence model 이란 건 뭐고 왜 그게 필요한 거지? Sequence model 이란, sequence data 를 다루기에 적합한 모델을 의미한다. Sequence data 라는 건 연속적인 데이터를 의미하는데, 예를 들어 음성, 음악 (음의 연속), 텍스트, 비디오 등 다 연속적인 데이터이다. Sequence model 이란 이런 데이터를 다..

Deep learning (일반)/deeplearning.ai 2020. 12. 12. 23:45

Bias vs Variance (편향, 분산)

"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." Machine Learning 모델을 트레이닝할 때 생길 수 있는 문제로는 high bias (편향) 혹은 high variace (분산) 가 있다. 그리고 모델이 이 중 어떤 문제를 갖고 있냐에 따라서 해결방법 또한 다르다. 그런데 도대체가 편향과 분산이란 단어가 와닿지도 않을 뿐더러, 거기에 맞는 해결법도 맨날 헷갈려서 기록해둬야지 하다가 드디어 함.. 참고로 강의는 2번째 코스인 Improving Deep Neural Networks 의 Week1 강의를 정리했다. 1. Bias 와 Variance 정의 한 마디로 정의하면 Bias (편향) - Underfi..

Deep learning (일반)/deeplearning.ai 2020. 10. 29. 19:29

[Course4 - Week3] CODE LAB _YOLO

"해당 포스팅은 Coursera 에서 수강한 Andew Ng 의 deep learning specialization 코스를 요약한 것입니다." 이번 주 수업의 coding lab 에서도 배울 게 많았기 때문에 여기에 짧게 정리. 그 전에 알아둘 게 있는게 Convolution Neural Network 를 배울 때, 보통 conv layer / max pooling layer / fully-connected layer 로 이루어졌다고 배웠다. 그런데, fully-connected layer 를 conv layer 로 표현 ? 계산하는 게 가능하다 (왜 그렇게 하는지는 모르겠는데 이점이 있으니까 그렇게 하겠지?) 아래 슬라이드에서 첫번째 줄이 이전에 배운 classic 한 CNN 구조. conv + poo..

Deep learning (일반)/deeplearning.ai 2020. 10. 26. 02:39

공부하는 제이의 블로그

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31