본문 바로가기

llm15

[LLM] 거대언어모델, LLM(Large Language Model) 이란? 거대언어모델, LLM 이란? 거대언어모델 (Large Language Model, LLM) 이란 쉽게 말해 대용량 언어 모델을 말한다. 대규모 데이터셋으로 학습되었으며 대규모 파라미터를 가진 언어 모델 기존의 PLM들을 대규모로 확장하면 성능이 늘어난다는 것을 확인하며, 구글과 페이스북 같은 IT 공룡들의 LLM 경쟁이 심화되었음. ‘거대’의 기준이 정해진 것은 아니나, 일부 전문가들은 GPT-3가 학습한 파라미터 개수인 1,750억 개를 들고 있음 GPT(Generative Pre-trained Transformer)와 BERT(Bidirectional Encoder Representations from Transformers)와 같은 다양한 모델이 있으며, 최근 가장 주목받는 대표적인 LLM으로 Ch.. 2023. 10. 6.

[LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다, 심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다. 그런데 이런 요약 모델의 성능 평가는 어떻게 해야 할까요? 기존에 텍스트 요약 과제에서, 모델 셀렉션이나 성능 평가 부분이 가장 어려웠는데요. 사실 요약이 잘되었다고 판단하는 부분이 지극히 주관적인 영역이라, 인간이 요약한 문장도 어떤 문장이 요약을 잘 한 것인지를 판단하기가 어렵기 때문입니다. 정통적으로 NLP나 summarization 부분에서 사용하는 ROUGE 같은 정량적인 스코어도 있지만 별 의미가 없어서... 결국 휴먼 피드백이나 보팅으로 해결하곤 했습니다. AI 모델이 요약한 문장은 어떻게 평가할 수 있을지, 평가방법에 대한 연구가.. 2023. 9. 26.

[LLM] LoRA (Low-Rank Adaptation) 를 이용한 LLM (Large Language Model) 최적화 LoRA : Low-Rank Adaptation of Large Language Models Microsoft에서 발표한 LoRA 논문에 대해 알아보자 논문 링크 : https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrai.. 2023. 9. 12.

이전 1 2 3 4 다음

티스토리툴바