[논문 리뷰] Efficient Estimation of Word Representations in Vector Space

문제 정의

많은 자연어 모델들은 단어를 원자 단위로 처리하여 단어간의 유사도를 표현할 수 없음
단어가 원핫인코딩으로 표현될 경우, 희소 벡터가 만들어짐

문제 해결 방법론

분산 표현을 학습할 수 있으면서 계산 복잡성을 줄이는 두 가지 모델을 제시함
- 분산 표현: 단어/문장을 고차원 공간의 벡터로 표현(dense matrix). 원핫인코딩과 달리, 한 단어를 여러 차원의 실수 요소로 표현되는 벡터 값으로 표현
모델 속 비선형 hidden layer이 복잡성을 증가시키기 때문에 log-linear 형태의 모델을 제시함

Continuous Bag-of-Words Model (CBOW)

윈도우 사이즈 만큼의 주변단어들을 활용하여 중심단어의 임베딩을 출력
하나의 projection layer(=projection matrix)을 사용하여 모든 단어가 같은 공간에서 벡터화되도록 함
- 같은 공간에서 벡터화되기 때문에 벡터의 차원과 의미가 일관됨
- projection layer는 비슷한 단어의 임베딩은 비슷한 위치를 가지도록 학습됨 (비슷한 문맥에서 자주 등장하는 단어들은 비슷한 벡터를 가지도록 조정됨)
- 기존의 NNML(Feedforward Neural Net Language Model)에서는 각 단어마다 별개의 projection maxtrix을 사용

Continuous Skip-gram Model

중심 단어를 입력으로 넣고, log-linear classifier은 중심 단어 앞, 뒤에 올 주변 단어들을 예측함
- 중심 단어를 입력으로 받아 projection layer를 통해 변환한 뒤, log-linear 분류기로 주변 단어의 확률을 계산
- 주변단어의 범위를 늘리면 더 높은 퀄리티의 단어 벡터들을 얻을 수 있지만, 계산 복잡도 또한 증가함
- log-linear 분류기
  - 확률 모델 기반의 선형 분류기로, Softmax 함수를 사용하여 특정 클래스(단어)의 확률을 계산하는 방식
  - 입력 벡터(단어 임베딩)을 받아 선형 변환을 수행한 후, Softmax 함수를 사용하여 확률을 계산. 확률이 가장 높은 클래스로 예측
  - 선형 변환은 입력 데이터를 행렬 연산을 통해 새로운 차원으로 변환하는 과정임. 선형 변환에서 사용하는 가중치 행렬 𝑊는 학습을 통해 최적화됨. 선형 변환 과정을 통해 모델이 context와 단어 간의 관계를 자동으로 학습할 수 있음.
출력 값으로는 전체 사전 크기의 확률 벡터가 나옴
- 중심 단어가 주어졌을 때, 각 단어가 주변 단어일 확률
실제 주변 단어를 표현하는 벡터(ex. [0,1,0,0])을 윈도우 사이즈만큼 만들어서 크로스 엔트로피나 Negative log likelihood를 계산하여 손실값을 구함
- 손실값을 계산할 때에는 중심 단어와 특정(하나의) 주변 단어와의 손실값만을 계산함

결과

기존의 feedforward나 recurrent 등의 신경망 모델과 비교했을 때, 비교적 간단한 아키텍쳐의 모델로도 고품질의 워드 벡터들을 학습시키는게 가능해짐
이는 제안한 모델의 계산 복잡성이 낮아 훨씬 더 큰 규모의 데이터셋으로부터 정확한 고차원의 단어 벡터들을 계산하는 것이 가능해졌기 때문

출처

[그림1]: Russac, Yoan & Caelen, Olivier & He, Liyun. (2018). Embeddings of Categorical Variables for Sequential Data in Fraud Context. 10.1007/978-3-319-74690-6_53

[그림2]: Hu, Jie & Li, Shaobo & Yao, Yong & Yu, Liya & Guanci, Yang & Hu, Jianjun. (2018). Patent Keyword Extraction Algorithm Based on Distributed Representation for Patent Classification. Entropy. 20. 104. 10.3390/e20020104.

'Deep Learning > NLP' 카테고리의 다른 글

[논문 리뷰] Attention is All You Need (0)	2025.01.05
[논문 리뷰] Labeled LDA: A supervised topic model for credit attribution inmulti-labeled corpora (0)	2024.12.20
[강의 정리] CS224n 1. Introduction and Word Vectors (1)	2024.11.15
RAG vs. ICL (2)	2024.10.07
BERT 파생 모델: ELECTRA, RoBERTa, DeBERTa (1)	2024.10.07

m12_data

[논문 리뷰] Efficient Estimation of Word Representations in Vector Space

문제 정의

문제 해결 방법론

Continuous Bag-of-Words Model (CBOW)

Continuous Skip-gram Model

결과

'Deep Learning > NLP' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] Efficient Estimation of Word Representations in Vector Space

문제 정의

문제 해결 방법론

Continuous Bag-of-Words Model (CBOW)

Continuous Skip-gram Model

결과

'Deep Learning > NLP' 카테고리의 다른 글

관련글

티스토리툴바