반응형 sentence similarity1 [NLP] Sentence Similarity (문장 간 유사도 계산)을 통한 Query paraphrasing 검수 배경 QA 데이터셋을 만들던 중,기간 내 목표 수량을 채우기 위해LLM으로 Query를 paraphrasing해 데이터를 증강하는 방식으로 데이터를 생성하게 되었다. Origical Query와 paraphrasing한 Query를 놓고 보니어느 정도는 유사해야 하지만 그렇다고 너무 유사하면 모델 학습에 의미가 없을 것 같았다. 그래서 paraphrasing한 Query를 검수하는 후처리 단계를 하나 추가해야 겠다고 생각했는데,2가지 방법 정도가 떠올랐다. LLM으로 paraphrasing한 Query를 검수하는 방법 1) 임베딩 모델을 통한 문장 유사도를 계산하고, 특정 treshold 범위를 정해서 해당 범위에 포함되는 쿼리만 사용2) LLM으로 검수 우선 1번을 시도해보았다. 임베딩 모델로는.. 2024. 9. 19. 이전 1 다음 반응형