본문 바로가기
반응형

AI/LLM16

대용량 한국어 데이터셋 : Markr AI - KoCommercial Dataset 개요 지난달 Markr AI에서 140만개의 한국어 Fine tuning 데이터셋을 모으고 만들어서 배포했습니다. LLM을 파인튜닝 하려면 데이터셋 확보가 8할, 아니 9할이라고 해도 과언이 아닌데요. 한국 LLM 생태계의 경우, 고품질의 Fine-tuning 데이터셋이 매우 부족합니다. 영어 데이터셋을 DeepL이나 GPT를 이용해서 번역&재생성해도 퀄리티 저하와 라이센스 이슈가 있구요ㅠㅠ GPT4나 Gemini를 통해 데이터를 생성하여 활용할 수 있지만, 현재 각 라이센스에서 각 모델을 통해 생성된 데이터를 경쟁하는 모델 학습에 사용하는건 현재 라이센스 위반으로 나와 있습니다. 참고 - OpenAI의 라이센스 Terms of use OUR SERVICES ARE PROVIDED “AS IS.” EXC.. 2024. 4. 3.
[LLM] Mistral 7B v0.2 Base Model 공개 Mistral 7B v0.2 Base Model이 공개되었다고 합니다. https://twitter.com/marvinvonhagen/status/1771609042542039421 X의 Marvin von Hagen님(@marvinvonhagen) Mistral just announced at @SHACK15sf that they will release a new model today: Mistral 7B v0.2 Base Model - 32k instead of 8k context window - Rope Theta = 1e6 - No sliding window twitter.com 이번 버전업에서 특징적인 부분은 다음과 같습니다. Mistral just announced at @SHACK15sf t.. 2024. 4. 3.
[NLP] 허깅페이스 모델 캐시 확인하기 앞선 글에서 Orion-14B를 테스트해보려고 하는데, 계속 Connection Error가 나서 resume_download 옵션을 줘서 해결했었다. 이전글 : [Error] 허깅페이스 lfs 모델 다운로드 에러 : connectionerror httpsconnectionpool(host='cdn-lfs-us-1.huggingface.co' Orion-14B 모델 성능이 LLaMA2 13B 보다 좋다길래, inference test를 해보려고 했다. https://huggingface.co/OrionStarAI/Orion-14B-Base OrionStarAI/Orion-14B-Base · Hugging Face Orion-14B Table of Contents 1. Model Introduction O.. 2024. 4. 2.
[논문리뷰] DeepSpeed-FastGen: High-throughput Text Generation forLLMs via MII and DeepSpeed-Inference LLM inference 관련해서 DeepSpeed-FastGen 이라는 새로운 방법이 나왔습니다. 논문 제목에서 알 수 있듯이, 이는 MS DeepSpeed 팀에서 낸 논문에서 제시하는 방법론입니다. https://arxiv.org/abs/2401.08671 DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency.. 2024. 1. 22.
반응형