본문 바로가기

Deep Learning/Graph6

[논문 리뷰] STARK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases Problem Definition기존 SQL이나 지식 그래프 쿼리는 범위가 제한적이고 사용자의 복잡한 검색 요구를 충족하기에 부족함LLM이 정보 검색에 잠재력을 보였지만, 반구조적 지식베이스(semi-structured knowledge bases, SKBs)에서의 활용 가능성은 아직 불확실함LLM 기반 검색 시스템이 텍스트 정보와 관계 정보를 잘 이해하고 추론할 수 있는지 평가할 필요가 있음대부분의 기존 연구가 Wikipedia 같은 공개된 일반적인 데이터를 활용하여, 비공개 반구조적 지식베이스에 대해서 LLM이 쿼리 속 복잡한 텍스트/관계 요구사항을 어떻게 다룰지는 알 수 없음      Methodology프레임 워크 STARK는 반구조적 지식베이스(SKBs)에서의 정보 검색을 평가하기 위해 구축된 .. 2025. 3. 27.
[논문 리뷰] Graph Retrieval Augmented Generation: A Survey - Training, application and evaluation 8. Training Training-FreeRetriever나 generator로 폐쇄형 LLM을 사용할 때 주로 활용LLM의 프롬프트에 의존을 많이 하는 편임다운스트림 태스크에 대한 최적화가 부족하여 성능이 제한적일 수 있음Training-BasedSupervised signal을 활용해 학습 및 파인튜닝 진행특정 태스크에 맞게 모델을 적응시켜 검색과 생성 성능을 향상시킴Joint trainingRetriever와 generator을 함께 훈련시키면 시너지 효과가 나타나며, 다운스트림 태스크에서 성능을 향상시킬 수 있음 8.1 Training Strategies of Retriever8.1.1 Training-FreeNon-parametric retriever사전에 정의된 규칙이나 전통적인 그래프 검.. 2024. 12. 6.
노드의 특징 벡터 (Node Feature Vector) 노드의 특징 벡터란노드와 관련된 정보를 압축하여 나타낸 고정된 크기의 벡터노드를 모델에 입력 데이터로 사용할 수 있도록 숫자화한 것노드의 속성(attribute) 또는 정보(feature)를 반영함 노드 특징 벡터의 생성 과정원시 데이터 수집ex) ogbn-arxiv에서는 논문의 초록 텍스트가 원시 데이터정보 추출노드와 관련된 유의미한 정보 추출벡터화(Embedding)추출된 정보를 고정 크기의 벡터로 변환텍스트 → Word2Vec, TF-IDF, 또는 BERT를 사용해 벡터화.수치 속성 → 그대로 벡터로 사용.범주형 속성 → One-hot Encoding, 임베딩으로 변환노드 특징 벡터 생성각 노드는 고정된 크기의 벡터로 표현됨 2024. 12. 2.
[논문 리뷰] Graph Retrieval Augmented Generation: A Survey - Retriever 6. Graph-Based Indexing 6.1 Retriever6.1.1 Non-parametric Retriever정의 및 특징휴리스틱 규칙 또는 전통적인 그래프 검색 알고리즘 기반딥러닝 모델에 의존하지 않아 높은 검색 효율성 제공다운스트림 작업에 대한 학습이 부족하여 검색 정확도가 떨어질 수 있음적용 사례질문-선택 쌍의 주제 엔터티를 포함하는 k-hop 경로를 검색엣지 가격(edge price) 추가, 관련 하위 그래프 추출 최적화쿼리에서 엔터티 추출 후, 엔터티 간 최단 경로 검색RoG(Retriever over Graph)은 질문-답변 쌍을 이용해 질문 엔터티에서 답변으로 이어지는 최단 경로를 추출하여 retriever를 구축질문에서 주요 엔터티를 식별한 후, 질문 엔터티에서 답변으로 가는 최.. 2024. 11. 21.
[논문 리뷰] Graph Retrieval Augmented Generation: A Survey - Indexing 5. Graph-Based Indexing여러 형태의 데이터 소스를 이용해 그래프 데이터를 구축⇒ 구축한 그래프 데이터를 저장하고 효율적으로 검색하기 위해 인덱싱을 수행⇒ 인덱싱이 완료된 데이터는 그래프 데이터베이스에 저장됨 (그래프 데이터베이스는 그래프 데이터를 효율적으로 저장하고 검색할 수 있는 데이터베이스 시스템으로, 지식 그래프의 정보를 활용하기 위한 최종 저장소 역할을 함)  5.1 Graph Data5.1.1 Open Knowledge Graphs(1) General Knowlege Graphs주로 일반적이고 구조화된 지식을 저장함전 세계 커뮤니티의 협업과 지속적인 업데이트를 바탕으로 정보를 갱신Encyclopedic knowledge graphs전문가와 백과사전에서 수집한 대규모의 현실 세계.. 2024. 11. 13.
[논문 리뷰] Graph Retrieval Augmented Generation: A Survey - RAG vs GraphRAG 0. Background Knowledge LLM(Large Language Models)일반적으로 대규모 텍스트 데이터에서 학습된 수천억 개 이상의 파라미터를 가진 Transformer 기반 언어 모델을 의미함기존 언어 모델에서 파라미터 수와 학습 데이터의 규모가 크게 증가한 모델을 LLM이라 칭함 RAG(Retrieval-Augmented Generation)쿼리를 기반으로 외부 데이터베이스에서 관련 정보를 검색한 후, 이를 LLM에 통합하여 응답을 생성함대규모 텍스트 데이터 집합을 동적으로 조회할 수 있는 능력이 있음 GraphRAG(Graph Retrieval-Augmented Generation)LLM의 응답 생성 과정에 그래프 기반 데이터를 활용하여 더 정확하고 관련성 높은 응답을 생성하는 기.. 2024. 11. 6.