
"해당 포스팅은 Dan jurafsky 교수의 Speech and Language Processing Chapter 14. Dependency Parsing 을 요약한 것이며 모든 이미지 자료로 책에서 인용한 것입니다" 해당 포스팅 전체에서 child node 가 단 한 개의 parent node 만 갖는다고 가정한다 1. Transition-based approach Transition-based 는 Parser (=predictor / oracle) 이 sequence of operator (left arc operator, right arc operator, shift operator, reduce operator) 를 predict 하는 방식. Each step 기준으로 보면 current ste..

Transformer 구조라는 건 encoder - decoder 로 이루어진 seq to seq model 이고 거기에 attention mechanism 이 핵심 요소이다. BERT 는 transformer 의 encoder blocks 만 있는 모델 GPT2 는 transformer 의 decoder blocks 만 있는 모델 BART 는 bert encoder + gpt2 decoder 이라는 것. 그럼 결국 transformer 아닌가..? => architecture 이랑 pre-training 에서 조금씩 차이가 있다고 함 BERT 는 그니까 self attention + feed forward layer 로 이루어진 encoder block 의 stack 으로 이루져 있고 GPT2 는 ma..

"해당 포스팅은 Dan Jurafsky 와 Chris Manning 교수의 2012년 Stanford NLP 강좌를 정리한 내용입니다." 석사논문 쓰면서 수없이 봤는데 누가 설명해보라고하면 자신 없을 것 같았던 N-gram language model 드디어 정리해본다. 우선 Probabilistc language model 이란 뭐냐? Sentence / phrase 가 주어졌을 때 그게 얼마나 likely 한지를 probability 로 나타내는 모델임. 그럼 그걸 어떻게 계산하냐? 2가지 방법이 있다. 첫번째로 Joint probabilty 인 $P(W)$ 즉, $P(w_{1}, w_{2}, w_{3} ...w_{n-1}, w_{n} )$ 을 구하거나 아니면 conditional probabilty ..
- Total
- Today
- Yesterday
- Contextual Embedding
- neurone
- Bert
- 벡터
- cs224n
- 워터마킹
- weight vector
- 언어모델
- transformer
- word embedding
- neural network
- nlp
- Neural Language Model
- GPTZero
- Attention Mechanism
- language model
- 뉴럴넷
- 뉴런
- Statistical Language Model
- Elmo
- Pre-trained LM
- LM
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |