본문 바로가기

LLM데이터셋1

대용량 한국어 데이터셋 : Markr AI - KoCommercial Dataset 개요 지난달 Markr AI에서 140만개의 한국어 Fine tuning 데이터셋을 모으고 만들어서 배포했습니다. LLM을 파인튜닝 하려면 데이터셋 확보가 8할, 아니 9할이라고 해도 과언이 아닌데요. 한국 LLM 생태계의 경우, 고품질의 Fine-tuning 데이터셋이 매우 부족합니다. 영어 데이터셋을 DeepL이나 GPT를 이용해서 번역&재생성해도 퀄리티 저하와 라이센스 이슈가 있구요ㅠㅠ GPT4나 Gemini를 통해 데이터를 생성하여 활용할 수 있지만, 현재 각 라이센스에서 각 모델을 통해 생성된 데이터를 경쟁하는 모델 학습에 사용하는건 현재 라이센스 위반으로 나와 있습니다. 참고 - OpenAI의 라이센스 Terms of use OUR SERVICES ARE PROVIDED “AS IS.” EXC.. 2024. 4. 3.

이전 1 다음

티스토리툴바