반응형 llm15 대용량 한국어 데이터셋 : Markr AI - KoCommercial Dataset 개요 지난달 Markr AI에서 140만개의 한국어 Fine tuning 데이터셋을 모으고 만들어서 배포했습니다. LLM을 파인튜닝 하려면 데이터셋 확보가 8할, 아니 9할이라고 해도 과언이 아닌데요. 한국 LLM 생태계의 경우, 고품질의 Fine-tuning 데이터셋이 매우 부족합니다. 영어 데이터셋을 DeepL이나 GPT를 이용해서 번역&재생성해도 퀄리티 저하와 라이센스 이슈가 있구요ㅠㅠ GPT4나 Gemini를 통해 데이터를 생성하여 활용할 수 있지만, 현재 각 라이센스에서 각 모델을 통해 생성된 데이터를 경쟁하는 모델 학습에 사용하는건 현재 라이센스 위반으로 나와 있습니다. 참고 - OpenAI의 라이센스 Terms of use OUR SERVICES ARE PROVIDED “AS IS.” EXC.. 2024. 4. 3. [LLM] Mistral 7B v0.2 Base Model 공개 Mistral 7B v0.2 Base Model이 공개되었다고 합니다. https://twitter.com/marvinvonhagen/status/1771609042542039421 X의 Marvin von Hagen님(@marvinvonhagen) Mistral just announced at @SHACK15sf that they will release a new model today: Mistral 7B v0.2 Base Model - 32k instead of 8k context window - Rope Theta = 1e6 - No sliding window twitter.com 이번 버전업에서 특징적인 부분은 다음과 같습니다. Mistral just announced at @SHACK15sf t.. 2024. 4. 3. [Error] 허깅페이스 lfs 모델 다운로드 에러 : connectionerror httpsconnectionpool(host='cdn-lfs-us-1.huggingface.co' port=443) Orion-14B 모델 성능이 LLaMA2 13B 보다 좋다길래, inference test를 해보려고 했다. https://huggingface.co/OrionStarAI/Orion-14B-Base OrionStarAI/Orion-14B-Base · Hugging Face Orion-14B Table of Contents 1. Model Introduction Orion-14B series models are open-source multilingual large language models trained from scratch by OrionStarAI. The base model is trained on 2.5T multilingual corpus, including Chinese, English,.. 2024. 4. 2. [LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation) 이전글에 이어 LLM 기반으로 LLM이 생성한 요약문의 성능을 평가하기 위해서 최신 논문들을 리서치해 보았다. [이전글] : [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다, 심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다. 그런데 이런 요약 모델의 성능 평가는 didi-universe.tistory.com LLM 기반 성능평가 관련 연구 동향 (2023) 1) Can Large Language Models Be an Alternative to Human Evaluations? https://arxiv.org/abs/2305.0193.. 2023. 12. 7. 이전 1 2 3 4 다음 반응형