
1. Input normalization 은 빠른 learning 을 위해 필요하다 x1= 1 에서 1000 까지의 value 를 가지고 x2 = 0..1 까지의 value 를 가진다고 할 때, 그럼 마찬가지로 각각 input feature에 상응하는 weight 도 다른 scale 을 갖게 됨. 결과적으로 cost function 이 왼쪽으로 한쪽은 굉장히 좁고 (elongated) , 한쪽은 넓은 모양이 되는데 이 경우에는 learning_ratio 를 아주 작게 해서 아주 많은 steps 을 밟아야지만 최적에 이르게 된다 (위에서 왼쪽 하단 이미지 참고) . 그렇게 때문에 input normalization 해서 두 input feature 의 scale 을 조정해주면 오른쪽 하단처럼 되고 결국 i..

"해당 포스팅은 Andew Ng 의 Machine learning class - Naive Bayes Classifier 를 요약한 것입니다." Discriminative model vs Generative model Discriminative model 의 대표적인 예는 Logistic regression 이라고 함. $P(y|x)$ 즉 $x$ features 가 주어졌을 때 바로 $P(y)$ 를 구하는 거임. 아래 그림처럼 Binary classification 에서 두 class 를 구분하는 초록색 선을 찾는게 목표임. Generative Model 로도 classifier 를 만들 수 있는데 방법이 조금 다름. 일단 formal 하게 말하자면 Generative Model 은 $P(y|x)$ 를 ..

"해당 포스팅은 Dan jurafsky 교수의 Speech and Language Processing Chapter 14. Dependency Parsing 을 요약한 것이며 모든 이미지 자료로 책에서 인용한 것입니다" 해당 포스팅 전체에서 child node 가 단 한 개의 parent node 만 갖는다고 가정한다 1. Transition-based approach Transition-based 는 Parser (=predictor / oracle) 이 sequence of operator (left arc operator, right arc operator, shift operator, reduce operator) 를 predict 하는 방식. Each step 기준으로 보면 current ste..
- Total
- Today
- Yesterday
- transformer
- GPTZero
- language model
- 뉴런
- neural network
- Elmo
- 워터마킹
- nlp
- neurone
- Pre-trained LM
- LM
- Neural Language Model
- cs224n
- Contextual Embedding
- 뉴럴넷
- Bert
- 언어모델
- Attention Mechanism
- 벡터
- weight vector
- word embedding
- Statistical Language Model
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |