반응형 llm15 [NLP] Sentence Similarity (문장 간 유사도 계산)을 통한 Query paraphrasing 검수 배경 QA 데이터셋을 만들던 중,기간 내 목표 수량을 채우기 위해LLM으로 Query를 paraphrasing해 데이터를 증강하는 방식으로 데이터를 생성하게 되었다. Origical Query와 paraphrasing한 Query를 놓고 보니어느 정도는 유사해야 하지만 그렇다고 너무 유사하면 모델 학습에 의미가 없을 것 같았다. 그래서 paraphrasing한 Query를 검수하는 후처리 단계를 하나 추가해야 겠다고 생각했는데,2가지 방법 정도가 떠올랐다. LLM으로 paraphrasing한 Query를 검수하는 방법 1) 임베딩 모델을 통한 문장 유사도를 계산하고, 특정 treshold 범위를 정해서 해당 범위에 포함되는 쿼리만 사용2) LLM으로 검수 우선 1번을 시도해보았다. 임베딩 모델로는.. 2024. 9. 19. [RAG] LLM-based Query Rewriting 논문 리뷰 (1) Enhancing Conversational Search: Large Language Model-Aided Informative Query Rewriting https://arxiv.org/abs/2310.09716 Enhancing Conversational Search: Large Language Model-Aided Informative Query RewritingQuery rewriting plays a vital role in enhancing conversational search by transforming context-dependent user queries into standalone forms. Existing approaches primarily leverage human-rewritten queries as labels to train query rewriting models. However, harxiv.org 요약 본 논문은 LLM.. 2024. 5. 8. [LLM] 왔다, LLaMA3! 드디어 LLaMA3가 나왔습니다. LLaMA3라서 라마 3마리를.... 은근 귀엽네요 ㅋㅋㅋ 근데 왜 도박을 하고 있을까요? 뭔가 의미가 있나? LLM 판을 뒤집어 버리시겠따...? 잭팟을 터트리려나 봅니다 ㅋㅋㅋ 무튼 전작에 이어 이번에도 오픈소스로 공개했고, 깃헙에서 확인할 수 있습니다. https://github.com/meta-llama/llama3 GitHub - meta-llama/llama3: The official Meta Llama 3 GitHub site The official Meta Llama 3 GitHub site. Contribute to meta-llama/llama3 development by creating an account on GitHub. github.com 프롬프.. 2024. 4. 19. [한국어 LLM 벤치마크] Korean MT-bench score 계산하기 (1) 한국어 LLM 리더보드인 호랑이에 대해 리뷰를 진행해보고, 외부 오픈소스 모델 및 내부 사내 자체 개발 모델에 대해 평가를 진행해보기로 결정! 호랑이 한국어 LLM 리더보드에 대한 소개는 아래 글 참고. [이전글] 호랑이(Horangi) - 한국어 LLM 리더보드 리뷰 호랑이(Horangi) - 한국어 LLM 리더보드 리뷰 업스테이지가 운영중인 허깅페이스 Open Ko LLM 리더보드에 이어, 새로운 한국어 LLM 리더보드가 등장했다. 이름은 호랑이 (Horangi), 아래 링크에 리더보드에 대한 자세한 설명이 나와있으니 참고. Hor didi-universe.tistory.com Korean MT-Bench score 구현 우선 2가지 데이터셋 중에서 그전부터 봐두던 MT-bench를 먼저 돌려보고 싶.. 2024. 4. 8. 이전 1 2 3 4 다음 반응형