본문 바로가기
반응형

분류 전체보기64

워드 임베딩(Word Embedding) - Word2Vec 워드 임베딩(Word Embedding) 자연어 처리에서 사용되는 기법 중 하나로, 텍스트 문서 내의 단어를 벡터 형태로 표현하는 방법입니다. 이러한 임베딩은 컴퓨터가 텍스트 데이터를 이해하고 처리할 수 있도록 도와줍니다. 워드 임베딩은 단어를 고차원 공간에서 저차원 벡터로 매핑하는 프로세스를 의미합니다. 이때 각 단어는 벡터 공간에서의 위치를 가지게 되며, 이 위치는 단어의 의미와 관련이 있습니다. 예를 들어, 비슷한 의미를 가진 단어들은 벡터 공간에서 서로 가까운 위치에 나타날 것입니다. 워드 임베딩은 다양한 자연어 처리 작업에 사용됩니다. 이를 통해 기계는 단어 간의 유사성을 이해하고, 문서의 의미를 파악하며, 텍스트 분류, 기계 번역, 정보 검색 등 다양한 자연어 처리 작업을 수행할 수 있게 됩니.. 2023. 9. 21.
[LLM] LoRA (Low-Rank Adaptation) 를 이용한 LLM (Large Language Model) 최적화 LoRA : Low-Rank Adaptation of Large Language Models Microsoft에서 발표한 LoRA 논문에 대해 알아보자 논문 링크 : https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrai.. 2023. 9. 12.
[sklearn] 데이터 전처리 - 1) 데이터 인코딩 데이터 전처리는 ML 알고리즘 만큼 중요합니다. GIGO (Garbage In, Garbage Out) 이라고 하죠. 머신러닝을 위한 대표적인 인코딩 방식은 2가지가 있습니다. 1) 레이블 인코딩 (Label Encoding) : 카테고리 피처를 코드형 숫자값으로 변환 2) 원-핫 인코딩 (One-Hot Encoding) 먼저 레이블 인코딩에 대해 알아보겠습니다. 레이블 인코딩 사이킷런의 레이블 인코딩은 LabelEncoder 클래스로 구현합니다. LabelEncoder 객체 생성 후 fit()과 transform()을 호출해 레이블 인코딩을 수행합니다. from sklearn.preprocessing import LabelEncoder items = ['우유', '계란', '치즈', '요거트', '식빵.. 2023. 7. 24.
[할 수 있다!퀀트 투자] ch.4 듀얼 모멘텀 전략 - 백테스트 무료로 포트폴리오 시뮬레이션이 가능한 Portfolio Visualizer를 이용해서 백테스트 진행 https://www.portfoliovisualizer.com/ Portfolio Visualizer Portfolio Visualizer is an online software platform for portfolio and investment analytics to help you make informed decisions when comparing and analyzing portfolios and investment products. Our suite of quantitative tools covers portfolio modeling and ba www.portfoliovisualizer.com.. 2023. 7. 18.
반응형