본문 바로가기
반응형

전체 글61

[NLP] Sentence Similarity (문장 간 유사도 계산)을 통한 Query paraphrasing 검수 배경 QA 데이터셋을 만들던 중,기간 내 목표 수량을 채우기 위해LLM으로 Query를 paraphrasing해 데이터를 증강하는 방식으로 데이터를 생성하게 되었다. Origical Query와 paraphrasing한 Query를 놓고 보니어느 정도는 유사해야 하지만 그렇다고 너무 유사하면 모델 학습에 의미가 없을 것 같았다. 그래서 paraphrasing한 Query를 검수하는 후처리 단계를 하나 추가해야 겠다고 생각했는데,2가지 방법 정도가 떠올랐다.  LLM으로 paraphrasing한 Query를 검수하는 방법 1) 임베딩 모델을 통한 문장 유사도를 계산하고, 특정 treshold 범위를 정해서 해당 범위에 포함되는 쿼리만 사용2) LLM으로 검수    우선 1번을 시도해보았다. 임베딩 모델로는.. 2024. 9. 19.
[LLM] ollama 사용하기 Ollama란?Ollama은 로컬 컴퓨터에서 실행할 수 있는 가벼운 확장 가능한 프레임워크다. 이 프레임워크는 언어 모델을 구축하고 실행하며 관리하기 위한 간단한 API를 제공하며, 미리 구축된 모델 라이브러리를 다양한 응용 프로그램에서 쉽게 사용할 수 있도록 한다. Ollama는 Llama 3.1, Mistral, Gemma 등 다양한 모델을 지원하며 CLI, REST API, 웹 및 데스크톱 통합을 제공한다. Ollama 공식 사이트에서 블로그, 깃헙을 보면 보다 자세한 내용을 확인할 수 있다.  Ollama 공식 블로그 - https://ollama.com/blog Blog · OllamaGet up and running with large language models.ollama.com Ollam.. 2024. 8. 13.
[AWS Certified Machine Learning Specialty - 2024] 시험 준비에 도움이 되는 사이트들 https://www.udemy.com/course/aws-machine-learning/?couponCode=ST10MT8624시험 준비 팁 & 후기 블로그https://mateon.tistory.com/91 세달 동안 AWS Certification 3개 딴 썰 풉니다 (시험 후기, 합격 꿀팁, SAA-C03, DAS-C01, MLS-C01)2023 8월 7일부터 11월 1일까지 획득한 Badge 목록! 👉 서론 사실 이전에는 이러한 Certification이 큰 의미를 가지고 있는지 회의감을 느끼고 있었습니다. 필요성을 잘 모르기도 했고, 업무에 큰 도움이velog.iohttps://jae-eun-ai.tistory.com/13 AWS Certified Machine Learning Special.. 2024. 8. 8.
[git] Linux - access token 저장해두고 쓰기! 매번 GitHub 인증하기 번거로운데, git credential 기능을 이용하면 인증 정보를 저장해두고 사용 가능함. git clone 토큰 인증 한방 명령어. 일단 아래 코드로 git clone과 토큰 인증을 한번에 처리할 수 있다. $ git clone https://:@ git clone https://:@ 이제 Credential Helper를 이용해 이 토큰 정보를 저장해두고 사용하면 매번 인증을 안해도 됨!  - Credential로 토큰 정보를 반영구 저장 하는 방식-git config --unset credential.helper [이 과정의 경우 기존에 세팅된 credential.helper 데이터를 해제할 때만 사용한다.]git config credential.helper store .. 2024. 8. 8.
[AWS Certified Machine Learning Specialty - 2024] 시험 준비를 시작하며 시험 범위 Data Engineering (20%)StorageS3 Data LakesDynamoDBTransformGlueGlue ETLStreamingKinesisKinesis Video StreamsWorkflowsData PipelinesAWS BatchStep Function Exploratory Data Analysis (24%) Data ScienceScikit-learnData Distribution Trends and SeasonalityAnalysis ToolsAthenaQuicksightEMRApache SparkFeature EngineeringImputation methodsOutliersBinningLog TransformsOne-hot encodingScaling and Nor.. 2024. 8. 3.
반응형