본문 바로가기

Deep Learning/NLP12

[강의 정리] Seq2Seq Learning Sequence to Sequence Learning Seq2Seq 모델은 단어, 이미지의 특징 등 시퀀스 데이터를 입력받아 또 다른 시퀀스를 출력하는 구조를 갖는다. 입력 시퀀스와 출력 시퀀스의 길이는 반드시 같을 필요는 없으며, 다양한 길이의 시퀀스를 유연하게 처리할 수 있다. 이 모델은 인코더와 디코더라는 두 구성 요소로 이루어져 있다. 인코더 (Encoder)입력 시퀀스의 각 항목(단어, 이미지 특징 등)을 처리하여 정보를 압축한다.입력이 순차적으로 인코더에 들어가며, 그때마다 hidden state가 업데이트됨모든 입력이 처리된 후, 마지막 hidden state가 context vector로 사용됨이 context vector는 입력 시퀀스 전체를 요약한 정보이지만, 긴 시퀀스에서는 앞부분의.. 2025. 5. 8.
[논문 리뷰] Efficient Estimation of Word Representations in Vector Space 문제 정의많은 자연어 모델들은 단어를 원자 단위로 처리하여 단어간의 유사도를 표현할 수 없음단어가 원핫인코딩으로 표현될 경우, 희소 벡터가 만들어짐  문제 해결 방법론분산 표현을 학습할 수 있으면서 계산 복잡성을 줄이는 두 가지 모델을 제시함분산 표현: 단어/문장을 고차원 공간의 벡터로 표현(dense matrix). 원핫인코딩과 달리, 한 단어를 여러 차원의 실수 요소로 표현되는 벡터 값으로 표현모델 속 비선형 hidden layer이 복잡성을 증가시키기 때문에 log-linear 형태의 모델을 제시함 Continuous Bag-of-Words Model (CBOW)  윈도우 사이즈 만큼의 주변단어들을 활용하여 중심단어의 임베딩을 출력하나의 projection layer(=projection matri.. 2025. 3. 4.
[논문 리뷰] Attention is All You Need https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org 1. Introduction RNN(순환 신경망)이나 LSTM(장단기 메모리), Gated Recurrent Nerual Net.. 2025. 1. 5.
[논문 리뷰] Labeled LDA: A supervised topic model for credit attribution inmulti-labeled corpora Introduction 기존 LDA의 한계 대부분의 텍스트는 인간이 태깅한 멀티 라벨 데이터다. 하지만 모든 태그가 동일하게 적용되지 않는 경우가 많다. 이러한 경우, credit attribution problem가 발생할 수 있다. 이는 문서 속의 단어들이 어떤 태그(라벨)와 관련 있는지 정확히 연결하는 문제다. 이를 해결하기 위해 등장한 모델 중 하나가 LDA(Latent Dirichlet Allocation)이다. LDA는 완전히 비지도학습이며 개별 문서의 내용을 분석하여 각 주제가 얼마나 포함되어 있는지 확률로 계산(추론)한다. 즉, 각 주제는 단어와의 관련성이 확률로 표현된다. LDA는 각 단어가 하나의 주제에서 나왔다고 가정한다. ex) 주제가 교통이라면 도로/차량/교통 같은 단어들로 요약된.. 2024. 12. 20.
[강의 정리] CS224n 1. Introduction and Word Vectors https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4&index=1  1. Traditional NLP1.1 기존 NLP의 표현 방법 및 문제점전통적인 자연어처리에서는 단어를 개별적(불연속적)인 기호로 간주하였다. 즉, 단어들이 서로 독립적이고 구별되는 고유한 기호로 여겨지고, 단어 간의 의미적 유사성이나 관계는 반영되지 않았다. ex) one-hot encoding 단어를 벡터로 표현할 때 해당 단어의 고유한 위치에만 1을 표시하고, 나머지 모든 위치에는 0을 넣는 방식이다. 벡터의 차원은 사전 속 전체 단어 수와 동일하다. 단어마다 유일한 위치에만 1을 부여하여 단어의 고유성을 나타내지만, 단어 간의 유사.. 2024. 11. 15.
RAG vs. ICL 질의응답 태스크를 수행하는 모델의 프롬프트 엔지니어링 방법을 알아보며 RAG와 ICL에 대해 알게 되었다. RAG와 ICL의 차이점을 비교한 글은 많지 않아서 개인적으로 생각해봤던 차이점에 대해 정리해보았다. 각 모델의 개념 정리RAG(Retrieval-Augmented Generation) RAG는 문서 생성 모델에 정보 검색 기능을 추가한 방식으로 크게 정보 검색 모델과 문서 생성 모델로 나눌 수 있다. 정보 검색 (Retrieval): 주어진 질문이나 입력에 대해 관련 있는 문서를 외부 데이터베이스에서 검색함답변 생성 (Generation): 검색된 문서를 기반으로 사용자의 질문에 대한 답변을 생성함RAG의 가장 큰 특징은 주어진 질문을 바탕으로 외부 데이터베이스에서 해당되는 부분을 찾아 이를 프롬.. 2024. 10. 7.