본문 바로가기
반응형

AI/NLP18

어텐션 매커니즘(Attention Mechanism) 앞에서 트랜스포머 모델을 살펴봤습니다. 이전글 : NLP의 핵심, 트랜스포머(Transformer) 복습! NLP의 핵심, 트랜스포머(Transformer) 복습! ChatGPT 등장 이후, 지금은 거대 언어 모델 (LLM, Large Language Model)의 전성기라고 해도 과언이 아닙니다. ChatGPT는 GPT 3.5와 같은 LM 모델을 Supervised Instruction tuning과 RLHF 대화형 모델로 파인튜닝한 모델 didi-universe.tistory.com 이 트랜스포머가 NLP 역사에 한 획을 그을 수 있었던 것은 바로 "Attention is All You Need" 라는 논문 제목에서 알 수 있듯이, 어텐션 메커니즘 덕분인데요. 어텐션이 무엇인지 자세히 알아보도록 하겠.. 2023. 9. 21.
NLP의 핵심, 트랜스포머(Transformer) 복습! ChatGPT 등장 이후, 지금은 거대 언어 모델 (LLM, Large Language Model)의 전성기라고 해도 과언이 아닙니다. ChatGPT는 GPT 3.5와 같은 LM 모델을 Supervised Instruction tuning과 RLHF 대화형 모델로 파인튜닝한 모델이죠. 이 GPT는 바로 트랜스포머의 디코더(Decoder) 부분을 가지고 만든 모델입니다. ChapGPT는 물론, 메타에서 발표한 LLaMA와 같은 현재의 LLM들의 조상 격이 바로 트랜스포머 모델입니다. 따라서 트랜스포머 모델의 구조를 이해하고 있어야, 이를 기반으로 한 LLM들을 활용하거나 튜닝할 때 수월하겠죠. 오늘은 트랜스포머에 대해 복습하는 포스팅을 작성하려고 합니다. 트랜스포머는 딥 러닝 모델의 한 종류로, 주로 자연.. 2023. 9. 21.
워드 임베딩(Word Embedding) - Word2Vec 워드 임베딩(Word Embedding) 자연어 처리에서 사용되는 기법 중 하나로, 텍스트 문서 내의 단어를 벡터 형태로 표현하는 방법입니다. 이러한 임베딩은 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 도와줍니다. 워드 임베딩은 단어를 고차원 공간에서 저차원 벡터로 매핑하는 프로세스를 의미합니다. 이때 각 단어는 벡터 공간에서의 위치를 가지게 되며, 이 위치는 단어의 의미와 관련이 있습니다. 예를 들어, 비슷한 의미를 가진 단어들은 벡터 공간에서 서로 가까운 위치에 나타날 것입니다. 워드 임베딩은 다양한 자연어 처리 작업에 사용됩니다. 이를 통해 기계는 단어 간의 유사성을 이해하고, 문서의 의미를 파악하며, 텍스트 분류, 기계 번역, 정보 검색 등 다양한 자연어 처리 작업을 수행할 수 있게 됩니.. 2023. 9. 21.
[LLM] LoRA (Low-Rank Adaptation) 를 이용한 LLM (Large Language Model) 최적화 LoRA : Low-Rank Adaptation of Large Language Models Microsoft에서 발표한 LoRA 논문에 대해 알아보자 논문 링크 : https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrai.. 2023. 9. 12.
반응형