본문 바로가기
Deep Learning/NLP

[논문 리뷰] Efficient Estimation of Word Representations in Vector Space

by em12 2025. 3. 4.

 

 

문제 정의

  • 많은 자연어 모델들은 단어를 원자 단위로 처리하여 단어간의 유사도를 표현할 수 없음
  • 단어가 원핫인코딩으로 표현될 경우, 희소 벡터가 만들어짐

 

 

문제 해결 방법론

  • 분산 표현을 학습할 수 있으면서 계산 복잡성을 줄이는 두 가지 모델을 제시함
    • 분산 표현: 단어/문장을 고차원 공간의 벡터로 표현(dense matrix). 원핫인코딩과 달리, 한 단어를 여러 차원의 실수 요소로 표현되는 벡터 값으로 표현
  • 모델 속 비선형 hidden layer이 복잡성을 증가시키기 때문에 log-linear 형태의 모델을 제시함

 

Continuous Bag-of-Words Model (CBOW)

[그림1] CBOW 아키텍쳐

 

 

  • 윈도우 사이즈 만큼의 주변단어들을 활용하여 중심단어의 임베딩을 출력
  • 하나의 projection layer(=projection matrix)을 사용하여 모든 단어가 같은 공간에서 벡터화되도록 함
    • 같은 공간에서 벡터화되기 때문에 벡터의 차원과 의미가 일관됨
    • projection layer는 비슷한 단어의 임베딩은 비슷한 위치를 가지도록 학습됨 (비슷한 문맥에서 자주 등장하는 단어들은 비슷한 벡터를 가지도록 조정됨)
    • 기존의 NNML(Feedforward Neural Net Language Model)에서는 각 단어마다 별개의 projection maxtrix을 사용

 

Continuous Skip-gram Model

[그림2] Skip-gram 아키텍쳐

 

  • 중심 단어를 입력으로 넣고, log-linear classifier은 중심 단어 앞, 뒤에 올 주변 단어들을 예측함
    • 중심 단어를 입력으로 받아 projection layer를 통해 변환한 뒤, log-linear 분류기로 주변 단어의 확률을 계산
    • 주변단어의 범위를 늘리면 더 높은 퀄리티의 단어 벡터들을 얻을 수 있지만, 계산 복잡도 또한 증가함
    • log-linear 분류기
      • 확률 모델 기반의 선형 분류기로, Softmax 함수를 사용하여 특정 클래스(단어)의 확률을 계산하는 방식
      • 입력 벡터(단어 임베딩)을 받아 선형 변환을 수행한 후, Softmax 함수를 사용하여 확률을 계산. 확률이 가장 높은 클래스로 예측
      • 선형 변환은 입력 데이터를 행렬 연산을 통해 새로운 차원으로 변환하는 과정임. 선형 변환에서 사용하는 가중치 행렬 𝑊는 학습을 통해 최적화됨. 선형 변환 과정을 통해 모델이 context와 단어 간의 관계를 자동으로 학습할 수 있음.
  • 출력 값으로는 전체 사전 크기의 확률 벡터가 나옴
    • 중심 단어가 주어졌을 때, 각 단어가 주변 단어일 확률
  • 실제 주변 단어를 표현하는 벡터(ex. [0,1,0,0])을 윈도우 사이즈만큼 만들어서 크로스 엔트로피나 Negative log likelihood를 계산하여 손실값을 구함
    • 손실값을 계산할 때에는 중심 단어와 특정(하나의) 주변 단어와의 손실값만을 계산함

 

 

결과

  • 기존의 feedforward나 recurrent 등의 신경망 모델과 비교했을 때, 비교적 간단한 아키텍쳐의 모델로도 고품질의 워드 벡터들을 학습시키는게 가능해짐
  • 이는 제안한 모델의 계산 복잡성이 낮아 훨씬 더 큰 규모의 데이터셋으로부터 정확한 고차원의 단어 벡터들을 계산하는 것이 가능해졌기 때문

 

 

 

 

 

 

 

 

 

 

 

 

출처

[그림1]: Russac, Yoan & Caelen, Olivier & He, Liyun. (2018). Embeddings of Categorical Variables for Sequential Data in Fraud Context. 10.1007/978-3-319-74690-6_53

[그림2]: Hu, Jie & Li, Shaobo & Yao, Yong & Yu, Liya & Guanci, Yang & Hu, Jianjun. (2018). Patent Keyword Extraction Algorithm Based on Distributed Representation for Patent Classification. Entropy. 20. 104. 10.3390/e20020104.