문제 정의
- 많은 자연어 모델들은 단어를 원자 단위로 처리하여 단어간의 유사도를 표현할 수 없음
- 단어가 원핫인코딩으로 표현될 경우, 희소 벡터가 만들어짐
문제 해결 방법론
- 분산 표현을 학습할 수 있으면서 계산 복잡성을 줄이는 두 가지 모델을 제시함
- 분산 표현: 단어/문장을 고차원 공간의 벡터로 표현(dense matrix). 원핫인코딩과 달리, 한 단어를 여러 차원의 실수 요소로 표현되는 벡터 값으로 표현
- 모델 속 비선형 hidden layer이 복잡성을 증가시키기 때문에 log-linear 형태의 모델을 제시함
Continuous Bag-of-Words Model (CBOW)
- 윈도우 사이즈 만큼의 주변단어들을 활용하여 중심단어의 임베딩을 출력
- 하나의 projection layer(=projection matrix)을 사용하여 모든 단어가 같은 공간에서 벡터화되도록 함
- 같은 공간에서 벡터화되기 때문에 벡터의 차원과 의미가 일관됨
- projection layer는 비슷한 단어의 임베딩은 비슷한 위치를 가지도록 학습됨 (비슷한 문맥에서 자주 등장하는 단어들은 비슷한 벡터를 가지도록 조정됨)
- 기존의 NNML(Feedforward Neural Net Language Model)에서는 각 단어마다 별개의 projection maxtrix을 사용
Continuous Skip-gram Model
- 중심 단어를 입력으로 넣고, log-linear classifier은 중심 단어 앞, 뒤에 올 주변 단어들을 예측함
- 중심 단어를 입력으로 받아 projection layer를 통해 변환한 뒤, log-linear 분류기로 주변 단어의 확률을 계산
- 주변단어의 범위를 늘리면 더 높은 퀄리티의 단어 벡터들을 얻을 수 있지만, 계산 복잡도 또한 증가함
- log-linear 분류기
- 확률 모델 기반의 선형 분류기로, Softmax 함수를 사용하여 특정 클래스(단어)의 확률을 계산하는 방식
- 입력 벡터(단어 임베딩)을 받아 선형 변환을 수행한 후, Softmax 함수를 사용하여 확률을 계산. 확률이 가장 높은 클래스로 예측
- 선형 변환은 입력 데이터를 행렬 연산을 통해 새로운 차원으로 변환하는 과정임. 선형 변환에서 사용하는 가중치 행렬 𝑊는 학습을 통해 최적화됨. 선형 변환 과정을 통해 모델이 context와 단어 간의 관계를 자동으로 학습할 수 있음.
- 출력 값으로는 전체 사전 크기의 확률 벡터가 나옴
- 중심 단어가 주어졌을 때, 각 단어가 주변 단어일 확률
- 실제 주변 단어를 표현하는 벡터(ex. [0,1,0,0])을 윈도우 사이즈만큼 만들어서 크로스 엔트로피나 Negative log likelihood를 계산하여 손실값을 구함
- 손실값을 계산할 때에는 중심 단어와 특정(하나의) 주변 단어와의 손실값만을 계산함
결과
- 기존의 feedforward나 recurrent 등의 신경망 모델과 비교했을 때, 비교적 간단한 아키텍쳐의 모델로도 고품질의 워드 벡터들을 학습시키는게 가능해짐
- 이는 제안한 모델의 계산 복잡성이 낮아 훨씬 더 큰 규모의 데이터셋으로부터 정확한 고차원의 단어 벡터들을 계산하는 것이 가능해졌기 때문
출처
[그림1]: Russac, Yoan & Caelen, Olivier & He, Liyun. (2018). Embeddings of Categorical Variables for Sequential Data in Fraud Context. 10.1007/978-3-319-74690-6_53
[그림2]: Hu, Jie & Li, Shaobo & Yao, Yong & Yu, Liya & Guanci, Yang & Hu, Jianjun. (2018). Patent Keyword Extraction Algorithm Based on Distributed Representation for Patent Classification. Entropy. 20. 104. 10.3390/e20020104.
'Deep Learning > NLP' 카테고리의 다른 글
[논문 리뷰] Attention is All You Need (0) | 2025.01.05 |
---|---|
[논문 리뷰] Labeled LDA: A supervised topic model for credit attribution inmulti-labeled corpora (0) | 2024.12.20 |
[강의 정리] CS224n 1. Introduction and Word Vectors (1) | 2024.11.15 |
RAG vs. ICL (2) | 2024.10.07 |
BERT 파생 모델: ELECTRA, RoBERTa, DeBERTa (1) | 2024.10.07 |