본문 바로가기
반응형

AI/NLP18

[NLP] Sentence Similarity (문장 간 유사도 계산)을 통한 Query paraphrasing 검수 배경 QA 데이터셋을 만들던 중,기간 내 목표 수량을 채우기 위해LLM으로 Query를 paraphrasing해 데이터를 증강하는 방식으로 데이터를 생성하게 되었다. Origical Query와 paraphrasing한 Query를 놓고 보니어느 정도는 유사해야 하지만 그렇다고 너무 유사하면 모델 학습에 의미가 없을 것 같았다. 그래서 paraphrasing한 Query를 검수하는 후처리 단계를 하나 추가해야 겠다고 생각했는데,2가지 방법 정도가 떠올랐다.  LLM으로 paraphrasing한 Query를 검수하는 방법 1) 임베딩 모델을 통한 문장 유사도를 계산하고, 특정 treshold 범위를 정해서 해당 범위에 포함되는 쿼리만 사용2) LLM으로 검수    우선 1번을 시도해보았다. 임베딩 모델로는.. 2024. 9. 19.
[NLP] Captum 라이브러리로 언어 모델 해석 LLM, sLLM이 화두가 되며 최근 회사에서도 이러한 LLM을 기반으로 한 서비스 개발에 관심이 많다. 확실히 language Generation Task에서는 LLM 기반 모델의 성능이 확실히 뛰어나지만, 비용이나 자원 이슈 등 여러가지 사항 때문에 이러한 거대언어모델을 모든 서비스에 적용을 하기는 현실적으로 어려운 상황이다. 따라서 분류 같은 간단한 task에서는 여전히 BERT나 ElECTRA 같은 PLM(Pre-trained Language Model)을 fine-tuning해서 문제를 해결하는 경우도 아직 많이 있다. 이처럼 사전 학습된 PLM 모델을 내가 원하는 task를 수행하기 위해 fine-tuning을 한 경우에, 모델이 잘 학습을 한 것인지? 어떤 부분을 보고 예측을 하는 건지? 모.. 2023. 12. 1.
[LLM] LLM 모델 로컬 경로에 저장하기 + git LFS KoR-Orca-Platypus-13B 현재 Ko LLM 리더보드에서 1위중인 KoR-Orca-Platypus-13B 모델 OpenOrca-KO dataset을 활용하여 LLaMa2를 fine-tunning한 모델이라고 한다. - huggingface : https://huggingface.co/kyujinpy/KoR-Orca-Platypus-13B - github : https://github.com/Marker-Inc-Korea/Korean-OpenOrca GitHub - Marker-Inc-Korea/Korean-OpenOrca: OpenOrca-KO dataset을 활용하여 llama2를 fine-tuning한 Korean-OpenOrca OpenOrca-KO dataset을 활용하여 llama2.. 2023. 10. 19.
[LLM] 어떤 소스든, Embedchain으로 나만의 챗봇 만들기! Embedchain 이란? 쉽게 말하면, 어떤 종류의 데이터셋이든 LLM 기반 봇 (Bot)을 쉽게 만들수 있게 도와주는 프레임워크 입니다. - Embedchain 공식 깃헙 : https://github.com/embedchain/embedchain GitHub - embedchain/embedchain: Data platform for LLMs - Load, index, retrieve and sync any unstructured data Data platform for LLMs - Load, index, retrieve and sync any unstructured data - GitHub - embedchain/embedchain: Data platform for LLMs - Load, inde.. 2023. 10. 11.
반응형