728x90
LoRA : Low-Rank Adaptation of Large Language Models
Microsoft에서 발표한 LoRA 논문에 대해 알아보자
- 논문 링크 : https://arxiv.org/abs/2106.09685
ABSTRACT
NLP의 추세가 large-scale pre-training으로 가기에 모델을 fine-tuning 할 때 소요되는 코스트가 너무 커지는 문제가 발생하였다.
그렇기에 이에 대한 해결책으로 LoRA를 제시한다.
GPT-3같은 거대한 모델을 fine-tuning하면 그 엄청난 parameter들을 다 재학습시켜야 함 → 이는 계산량도 많고 시간도 꽤 걸리는 부담스러운 작업이다.
이를 줄이기 위해
- 원래 parameter는 freeze시키고
- Transformer architecture의 각 layer마다 학습가능한 rank decomposition matrices를 추가하는 방식을 도입해 (Low-Rank Adaptation)
- downstream tasks의 trainable parameters를 줄일 수 있었다.
결과적으로
- GPT-3와 비교하여 trainable parameters를 약 10,000배 줄일 수 있었으며, GPU 메모리 요구량도 3배 줄일 수 있었다.
- RoBERTA, DeBERTa, GPT-2, GPT-3같은 다양한 모델에서 비슷하거나 더 높은 fine-tuning 성능을 보여주었으며, 이는 적은 파라미터와 높은 training throughput의 장점을 가지고 있다.
또한 기존 adapters의 inference latency 문제 또한 LoRA에는 적용되지 않는다.
- LoRA의 장점
- 사전학습된 모델을 그대로 공유하면서 작은 LoRA 모듈을 여럿 만들 수 있다. 모델을 공유하면서 새로 학습시키는 부분(위 그림의 오른쪽에 있는 A, B)만 쉽게 바꿔끼울 수 있다.
- layer에 추가한 작은 matrices만 학습시키고 효율적으로 메모리를 사용할 수 있다.
- inference 과정에서 추가적인 latency 없이 사용할 수 있다.
- 기존의 많은 방법들과도 동시 사용 가능하다.
참고
https://greeksharifa.github.io/paper_review/2022/09/21/LoRA/
https://velog.io/@nellcome/NLP2
728x90
'AI > NLP' 카테고리의 다른 글
NLP의 핵심, 트랜스포머(Transformer) 복습! (0) | 2023.09.21 |
---|---|
워드 임베딩(Word Embedding) - Word2Vec (0) | 2023.09.21 |
[ChatGPT] GPT 4.0 분석 (0) | 2023.04.14 |
[ChatGPT] ChatGPT 리뷰 - 금융관련 질의로 테스트 (0) | 2022.12.07 |
[논문리뷰] Diffusion-LM Improves Controllable Text Generation (0) | 2022.09.20 |
댓글