
이번 수업은 다른 수업에 비해서 좀 더 언어학 부분이 많이 차지해서 한 숨 돌렸던 coreference resoltion! Coreference 라는 것은 텍스트 안에서 Real world 에 존재하는 entity를 모두 찾아내는 것을 의미한다. 여기서 Entity라 함은 고유명사가 될 수도 있겠지만 고유 명사를 가리키는 대명사나 혹은 일반 명사도 다 entity 가 될 수 있기 때문에 그렇게 쉬운 문제는 아니다. 그리고 어떤 단어가 entity 인지 아닌지가 항상 분명한 것은 아니기 때문에 (약간 애매한 것은 주관적인 판단에 따라 갈릴 수도 있다) 그런 점에서 어려움이 있다. Coreference 를 풀 때는 우선 고유 명사 찾아내기, 그리고 이 고유 명사를 가리키는 일반명사나 대명사를 찾아야 하는데,..

수업은 해당 질문으로 시작한다. 사실 자연어 처리의 모든 문제는 Quesntion anwering 이라고 할 수 있지 않을까? 감정 분석이나 기계번역과 같은 문제도 사실은 질문-답 형식으로 볼 수 있는 거임. 예) 사과가 불어로 뭐야? 예) 이 글에서 느껴지는 화자의 감정 상태는? 예) 이 문장의 POS 로 나타내면? 그래서 POS 태깅, 감정 분석, 번역의 모델들을 아예 조인트하게 묶어서 일반적인 질문에 대답하는 형태로 만들 수 있다면 멋지지 않을까? 에서 출발! 여기에 앞서서 해당 작업에는 2가지 어려움이 있다. 우선 Task (POS 태깅, 감정 분석, 번역)과상관없이 최고의 성능을 내는 뉴럴 아키텍쳐가 없다. Task 별로 최고 성능 내는 구조가 다 다름 (MemNN -> Question answ..
Bit depth https://www.picturecorrect.com/tips/8-bit-vs-16-bit-images-explained/ 8-Bit vs 16-Bit Images Explained This is not a discussion on the prudence of shooting in RAW versus JPEG. It’s about understanding bit depth and how it can affect the quality of your images. Tutvid explains: What is Bit Depth? Bit depth refers to the amount of information your images carr www.picturecorrect.com Hight..

내가 이해한 대로 오디오 프로세싱을 간략하게 설명해보자면 이렇다. 우선, 아날로그 신호와 디지털 신호가 있는데 아날로그 신호는 그냥 우리가 내는 소리 그 자체라고 할 수 있고, 디지털 신호는 컴퓨터 파일로 바꾸거나 (녹음해서 파일로 저장할 때) 하기 위해서 필요한 것으로 사실상 숫자라고 할 수 있다 - 컴퓨터가 처리 가능한 데이터야 하니까. 사실 디지털 신호는 우리가 실제 내는 소리의 근사치다. 왜? 우리가 내는 소리는 일단 연속적인 값이다 (가장 작은 단위로 쪼갤 수 있는 게 아님). 이걸 디지털 신호로 바꿀 때 어떻게 하냐면, 우리가 낸 소리를 일정 간격으로 점을 찍어서 해당 점에 위치한 값을 기록하는 것이다. 이 때 이 1초 동안 찍는 점의 갯수를 샘플 크기라고 한다. 그리고 각각의 점을 슬라이스라..
이번 수업 시간에는 CNN에 대한 수업이었는데, 기존에 이미지 인식에서 자주 쓰이던 CNN을 자연어 처리에 쓰게 된 배경과, CNN이 자연어 처리에서 쓰일 때는 어떤 차이가 있는지에 대한 내용이다. 출바알-! 1. CNN을 쓰는 이유는? CNN을 쓰는 이유는 RNN이 가진 한계에서 온다. 우선 RNN 은 어떤 구문에 대해서 구문 별개로 인식을 할 수가 없다. 무슨 말이냐면, RNN 의 hidden state를 보면, 항상 왼쪽에서 오른쪽으로 문맥이 포함되는 구조임을 알 수 있다. 즉, 중간이나 마지막에 오는 단어의 vectcor에는 원하든 원하지 않든, 이전에 나온 단어의 문맥이 포함될 수 밖에 없다 (bi-directional도 마찬가지임). 결국 어떤 단어, 혹은 구문 (phrase) 의 의미가 문장..
이번 수업은 마지막으로, 다시 한번 더, GRU 를 뽀개버리는 수업이었다. 1. 왜 GRU 를 쓰지? 우선 왜 GRU 가 등장했는지를 알기 위해서는 기존에 있던 RNN 의 단점을 알아야 한다. 위의 이미지에 등장하는 수식은 을 구하는 방법으로, 즉 current hidden state 를 업데이트 하기 위한 수식이다. 수식을 간단하게 설명하자면, current step 에서의 input인 x 와, previous hidden state 에 각각 가중치를 곱하고 이 둘을 더한다. 여기에 bias 를 더한 다음 tanh 을 씌워서 -1 과 1 사이의 값을 반환하는 식이다. 이때 주목해야 할 것은 previous hidden state 에 weight matrix U를 곱했다는 점. 이런 식으로 weight ..
이번 수업에서는 지난 주에 이어서 계속해서 뉴럴넷을 기반으로 한 자동 번역을 배우는데, 좀 더 깊이 들어가서 거기에 쓰이는 attention mechanism 과 Decoder 성능을 어떻게 향상시킬 수 있는지에 대해 다룬다. 1. Machine translation with neural networks NMT 는 기본적으로 Encoder 와 Decoder 로 이루어져 있다. Encoder 는 인풋을 hidden state 로 바꾸는 역할이고, Decoder 는 이걸 바탕으로 번역을 generate (생성)하는 구조라고 보면 된다. Encoder 의 마지막 부분이 인풋 문장 전체에 대한 정보를 담고 있다고 보면 되고, 디코더는 이 마지막 hidden state 를 바탕으로 번역을 생성하는 것이 특징이다...
1. Traditional Machine Translation (statistical)기존의 classical machine translation 은 아무래도 statistics (다르게 얘기하면 co-occurrence frequencies)를 이용한 방법이 대부분이었다. parallel corpus 를 사용했다. 기존의 방법은 다양한 feature engineering 을 요구하는 방식이었다. 예를 들어 기본적인 machine translation system 은 1) alignment model 2) language model 3) re-ordering model 등이 필요하다. alignment 는 parallel corpus 에서 co-occurrence 를 기준으로 뽑아내는데 input sen..
1. Traditional 한 Language modeling 언어 모델이란 건 사실 간단히 말하면, 연속적인 단어들이 주어졌을 때 그 sequence 에 대한 probability 를 주는 모델이다. 이런 언어 모델을 다양한 NLP task 에 함께 쓰이는데 예를 들어 자동 번역 모델이라든지, 음성 인식 모델에 쓰이곤 한다. 이 언어 모델을 word order 이나 word choice 에 있어서 좀 더 자주 쓰이는 패턴의 phrases 에 더 높은 probability 를 부여하는 모델이다. 그렇다면 기존의 언어 모델은 어떻게 만들어졌느냐! 간단하게 말하면 count 를 이용해서 만들어졌다. 노가다처럼 들리지만, 주어진 corpus 에서 window 를 옮겨가면서 모든 단어에 대한 co-occurre..
1. 문장의 구조를 나타내는 방법 2가지 문장의 구조 (linguistic structure) 를 나타내는 방법에는 두 가지가 있다. - Context-free grammars (CFGs) - Dependency tree parsing 우선 Context-free grammars 은 내가 예전에 배웠던 syntax tree 생각하면 된다. 왜 context free 라고 부르는지 생각해보면, 문장 내의 단어 의미나 context 에 상관없이 문장의 각 성분을 어떤 큰 chunk 를 이루는 구성요소로 보기때문이 아닐까 싶다. NP -> Det N 이런식으로. 하지만 요새 대세는 dependency parser 로 굳어지는 듯 하다. 장점은 여러가지가 있겠지만 우선 다음의 장점이 있다. 1) 언어에 상관없이..
- Total
- Today
- Yesterday
- 뉴런
- 뉴럴넷
- transformer
- Pre-trained LM
- GPTZero
- Bert
- Elmo
- neural network
- word embedding
- Neural Language Model
- nlp
- Attention Mechanism
- Statistical Language Model
- neurone
- cs224n
- Contextual Embedding
- 언어모델
- LM
- language model
- 워터마킹
- weight vector
- 벡터
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |