본문 바로가기

전체 글71

[Error] 허깅페이스 lfs 모델 다운로드 에러 : connectionerror httpsconnectionpool(host='cdn-lfs-us-1.huggingface.co' port=443) Orion-14B 모델 성능이 LLaMA2 13B 보다 좋다길래, inference test를 해보려고 했다. https://huggingface.co/OrionStarAI/Orion-14B-Base OrionStarAI/Orion-14B-Base · Hugging Face Orion-14B Table of Contents 1. Model Introduction Orion-14B series models are open-source multilingual large language models trained from scratch by OrionStarAI. The base model is trained on 2.5T multilingual corpus, including Chinese, English,.. 2024. 4. 2.

[논문리뷰] DeepSpeed-FastGen: High-throughput Text Generation forLLMs via MII and DeepSpeed-Inference LLM inference 관련해서 DeepSpeed-FastGen 이라는 새로운 방법이 나왔습니다. 논문 제목에서 알 수 있듯이, 이는 MS DeepSpeed 팀에서 낸 논문에서 제시하는 방법론입니다. https://arxiv.org/abs/2401.08671 DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency.. 2024. 1. 22.

[ChatGPT] GPT Store(GPTs) 오픈, 리뷰 및 사용성 검토 GPT Store(GPTs)란? 다양한 GPT 빌더들을 사용할 수 있는, GPT Store(GPTs) 가 출시되었습니다. GPTs 는 간단히 말해, 앱스토어의 GPT 버전이라고 생각하면 될 것 같은데요, 누구나 GPT Builder를 이용해서 자신이 만든 GPT를 공개하고, 이를 스토어에 업로드해서 수익을 창출할 수 있습니다. 단, AWS의 Marketplace처럼 자체 모델을 업로드할 수 있는 구조는 아니며, 아래 기술된 것처럼 1) Instruction, 2) RAG, 3) Action 기능을 통해 “커스터마이징된 GPT”를 업로드하여 공유할 수 있는 구조입니다. 현재는 유료 사용자들에게 공개되어 있어서, 기능을 사용하려면 GPT Plus로 업그레이드를 해야 합니다. GPT Store는 여기 링크를 .. 2024. 1. 17.

[LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation) 이전글에 이어 LLM 기반으로 LLM이 생성한 요약문의 성능을 평가하기 위해서 최신 논문들을 리서치해 보았다. [이전글] : [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다, 심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다. 그런데 이런 요약 모델의 성능 평가는 didi-universe.tistory.com LLM 기반 성능평가 관련 연구 동향 (2023) 1) Can Large Language Models Be an Alternative to Human Evaluations? https://arxiv.org/abs/2305.0193.. 2023. 12. 7.

[NLP] Captum 라이브러리로 언어 모델 해석 LLM, sLLM이 화두가 되며 최근 회사에서도 이러한 LLM을 기반으로 한 서비스 개발에 관심이 많다. 확실히 language Generation Task에서는 LLM 기반 모델의 성능이 확실히 뛰어나지만, 비용이나 자원 이슈 등 여러가지 사항 때문에 이러한 거대언어모델을 모든 서비스에 적용을 하기는 현실적으로 어려운 상황이다. 따라서 분류 같은 간단한 task에서는 여전히 BERT나 ElECTRA 같은 PLM(Pre-trained Language Model)을 fine-tuning해서 문제를 해결하는 경우도 아직 많이 있다. 이처럼 사전 학습된 PLM 모델을 내가 원하는 task를 수행하기 위해 fine-tuning을 한 경우에, 모델이 잘 학습을 한 것인지? 어떤 부분을 보고 예측을 하는 건지? 모.. 2023. 12. 1.

이전 1 ··· 3 4 5 6 7 8 9 ··· 15 다음

티스토리툴바