본문 바로가기
반응형

LLM 성능평가2

[한국어 LLM 벤치마크] Korean MT-bench score 계산하기 (2) [이전글] : [한국어 LLM 벤치마크] Korean MT-bench score 계산하기 (1) [한국어 LLM 벤치마크] Korean MT-bench score 계산하기 (1) 한국어 LLM 리더보드인 호랑이에 대해 리뷰를 진행해보고, 외부 오픈소스 모델 및 내부 사내 자체 개발 모델에 대해 평가를 진행해보기로 결정! 호랑이 한국어 LLM 리더보드에 대한 소개는 아래 didi-universe.tistory.com 이전 글에 이어서 직접 코드를 수정하고 평가해본 결과를 살펴보자. 전체 코드는 아래 깃헙 레포에 정리해 두었다. https://github.com/ai-yeongji/ko_llm_eval/tree/main?tab=readme-ov-file GitHub - ai-yeongji/ko_llm_eva.. 2024. 4. 15.
[LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation) 이전글에 이어 LLM 기반으로 LLM이 생성한 요약문의 성능을 평가하기 위해서 최신 논문들을 리서치해 보았다. [이전글] : [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰 최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다, 심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다. 그런데 이런 요약 모델의 성능 평가는 didi-universe.tistory.com LLM 기반 성능평가 관련 연구 동향 (2023) 1) Can Large Language Models Be an Alternative to Human Evaluations? https://arxiv.org/abs/2305.0193.. 2023. 12. 7.
반응형