본문 바로가기
반응형

Korean MT-bench2

[한국어 LLM 벤치마크] Korean MT-bench score 계산하기 (1) 한국어 LLM 리더보드인 호랑이에 대해 리뷰를 진행해보고, 외부 오픈소스 모델 및 내부 사내 자체 개발 모델에 대해 평가를 진행해보기로 결정! 호랑이 한국어 LLM 리더보드에 대한 소개는 아래 글 참고. [이전글] 호랑이(Horangi) - 한국어 LLM 리더보드 리뷰 호랑이(Horangi) - 한국어 LLM 리더보드 리뷰 업스테이지가 운영중인 허깅페이스 Open Ko LLM 리더보드에 이어, 새로운 한국어 LLM 리더보드가 등장했다. 이름은 호랑이 (Horangi), 아래 링크에 리더보드에 대한 자세한 설명이 나와있으니 참고. Hor didi-universe.tistory.com Korean MT-Bench score 구현 우선 2가지 데이터셋 중에서 그전부터 봐두던 MT-bench를 먼저 돌려보고 싶.. 2024. 4. 8.
호랑이(Horangi) - 한국어 LLM 리더보드 리뷰 업스테이지가 운영중인 허깅페이스 Open Ko LLM 리더보드에 이어, 새로운 한국어 LLM 리더보드가 등장했다. 이름은 호랑이 (Horangi), 아래 링크에 리더보드에 대한 자세한 설명이 나와있으니 참고. Horangi 한국어 LLM 리더보드 Horangi 한국어 LLM 리더보드 자연어 이해 및 생성 관점에서 한국어 LLM들의 능력을 평가합니다. Made by Kim, Ki Hyun using Weights & Biases wandb.ai 허깅페이스 Open ko LLM 리더보드에는 현재 업스테이지의 Solar 모델을 dpo로 파인튜닝한 모델들이 상위권을 차지하고 있다. 그런데 과연 이 리더보드는 신뢰할 수 있는 것인가? 항상 LLM 생성문에 대한 평가는 어려움을 겪는 것 같다. 특히 영어에 비해 한.. 2024. 4. 8.
반응형