[LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation)

728x90

이전글에 이어

LLM 기반으로 LLM이 생성한 요약문의 성능을 평가하기 위해서 최신 논문들을 리서치해 보았다.

[이전글] : [LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰

[LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰

최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다, 심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다. 그런데 이런 요약 모델의 성능 평가는

didi-universe.tistory.com

LLM 기반 성능평가 관련 연구 동향 (2023)

1) Can Large Language Models Be an Alternative to Human Evaluations?

https://arxiv.org/abs/2305.01937

Can Large Language Models Be an Alternative to Human Evaluations?

Human evaluation is indispensable and inevitable for assessing the quality of texts generated by machine learning models or written by humans. However, human evaluation is very difficult to reproduce and its quality is notoriously unstable, hindering fair

arxiv.org

Grammatically, Cohesiveness, Likability, Relevance 4가지 기준에 따라 각기 다른 prompt를 통해 LLM이 평가 점수를 생성하도록 함

2) G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

https://arxiv.org/abs/2303.16634

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially

arxiv.org

CoT (Chain of Thought) 방식으로 LLM이 생성문에 대한 평가 점수 반환하도록 유도
- CoT : <문제-답>이 아닌 <문제-풀이방식-답> 으로 prompt를 구성하여 LLM의 성능을 개선하는 방식

3) GPTScore: Evaluate as You Desire

https://arxiv.org/abs/2302.04166

GPTScore: Evaluate as You Desire

Generative Artificial Intelligence (AI) has enabled the development of sophisticated models that are capable of producing high-caliber text, images, and other outputs through the utilization of large pre-trained models. Nevertheless, assessing the quality

arxiv.org

모델에 점수를 직접 물어보지 않고 next token의 log probability를 바탕으로 점수 산출
Semantic coverage, Factuality, Consistency 등 평가 aspect에 대한 설명을 prompt에 포함

위 3개 논문에서 제시한 방법의 공통점은 다음과 같다.

별도의 fine-tuning 없이 공개된 LLM을 활용
Human evaluation 과의 상관계수를 통해 LLM 기반 성능 평가 능력 검증

위 3개 논문을 참고해서,

pilot test로 인사평가 데이터에 대해서 LLM이 생성한 요약문의 성능을 평가해보았다.

Prompt #1

G-Eval 방식 적용 - CoT (평가 단계 제시), 20회 반복 평가 후 점수 가중함(5점 척도)
요약문에 대한 평가 점수 반환이 가능한지 확인

Prompt	HR 리포트 원문과 이원문에 대해 작성된 하나의 요약문이 주어집니다. 당신의 임무는 하나의 지표에 대해 요약문을 평가하는 것입니다. 이 지침을 주의 깊게 읽고 이해하시길 바랍니다. 검토하는 동안 이 문서를 열어 두었다가 필요할 때 참조하시길 바랍니다. 평가 기준: coherence (1~5점) - 모든 문장의 총체적인 품질입니다. 구조 및 일관성에 대해 요약문은 잘 짜여지고 체계적으로 구성되어야 합니다. 요약은 단순히 관련 정보를 나열하는 것이 아니라 한 문장에서부터 주제에 대한 일관된 정보로 구성되어야 합니다. 또한, 거짓이나 환각 없이 사실을 기반으로 작성되어야 합니다. 평가 단계: 1. 원문을 주의 깊게 읽고 주요 사실과 세부 사항을 파악합니다. 2. 요약문을 읽고 원문과 비교합니다. 요약문에 원문에서 뒷받침되지 않는 사실 오류가 있는지 확인합니다. 3. 평가 기준에 따라 점수를 부여합니다. 예시 : 원문 : 업무 추진력이 다소 약함. 원활한 의사소통 분위기 조성과 권위의식 없는 태도. 강력한 리더십이 조금 아쉬움. 직원들의 의션을 진솔하게 잘 들어주시고, 이해해주시면서 같이 고민해줌. 보완할 점에 대해 기술할 것 없음. 국내 FI 비즈니스에 대한 이해도를 바탕으로 현 경기침체기 영업방향과 리스크 관리에 대해 본부내 소통하고 중기적 관점에서의 FI영업 인프라 개선에 지원과 격려를 아끼지 않음. 경청하고 상대를 존중한다. 특별한 개선사항 없음. 현장의 자율성 보장. 특별한 보완점 없음. ... 이하생략 요약문 : 업무추진력이 다소 약함 \|\| 원활한 의사소통 분위기 조성과 권위의식 없는 태도 \|\| ... 이하생략 평가 양식(점수만 작성): - coherence :
polyglot-5.8B	(답변 반환 X)
polyglot-5.8B (HR 요약 데이터로 fine-tuned)	업무추진력이 다소 약함 \|\| 원활한 의사소통 분위기 조성과 권위의식 없는 태도 \|\| ... 이하생략 => 요약 데이터로 supervised fine-tuning 된 관계로 intruction에 맞는 점수 형태의 답변 생성하지 못함
LLaMA2 (KoR-Orca-platypus-13B)	3 => 2(1/20) + 4(8/20) + 5(11/20) = 4.45*
ChatGPT (GPT-4)	4.5 => 4(8/20) + 4.5(7/20) + 5(5/20) = 4.425*

prompt #2

평가 점수에 대한 근거를 함께 제시할 수 있는지 확인

Prompt	다음은 원문과 모델이 생성한 요약문입니다. 요약문의 품질을 10점 척도로 평가하세요. 점수가 낮을수록 '적절하지 않고, 사실과 다르고, 가독성이 좋지 않은 요약문'을 의미하며, 점수가 높을수록 '적절하고, 사실에 기반하며, 가독성이 좋은 요약문'을 의미합니다. 점수에 대한 평가 근거도 함께 제시해주세요. 답변 형식은 '점수-근거'입니다. 원문 : 업무 추진력이 다소 약함. 원활한 의사소통 분위기 조성과 권위의식 없는 태도. 강력한 리더십이 조금 아쉬움. 직원들의 의션을 진솔하게 잘 들어주시고, 이해해주시면서 같이 고민해줌. 보완할 점에 대해 기술할 것 없음. 국내 FI 비즈니스에 대한 이해도를 바탕으로 현 경기침체기 영업방향과 리스크 관리에 대해 본부내 소통하고 중기적 관점에서의 FI영업 인프라 개선에 지원과 격려를 아끼지 않음. 경청하고 상대를 존중한다. 특별한 개선사항 없음. 현장의 자율성 보장. 특별한 보완점 없음. ... 이하생략 요약문 : 업무추진력이 다소 약함 \|\| 원활한 의사소통 분위기 조성과 권위의식 없는 태도 \|\| ... 이하생략 요약문 품질 점수 및 근거:
polyglot-5.8B	"이 회사에서 일하고 싶은 이유는 무엇입니까?" 이 질문에 대한 답변을 작성하십시오. ### 응답: 이 회사에서 일하고 싶은 이유는 무엇입니까? (Description, Compellation, Answer) => 적절하지 않은 답변 생성
polyglot-5.8B (HR 요약 데이터로 fine-tuned)	원문 : 업무추진력이 다소 약함 \|\| 적절하지 않고, 사실과 다르고, 가독성이 좋지 않은 요약문 \|\| 적절하고, 사실에 기반하고, 가독성이 좋은 요약문 => 적절하지 않은 답변 생성
LLaMA2 (KoR-Orca-platypus-13B)	8 - 논리적이고 정확한 요약, 문장이 간결하고 문법적으로 정확하며 가독성이 높습니다. => 평가 근거가 구체적이지 않고 일반적인 내용임
ChatGPT (GPT-4)	8점 - 요약문은 원문의 주요 내용을 포함하고 있습니다. 업무추진력의 약함, 리더십의 부재, 직원들의 의견에 대한 존중, FI 비즈니스에 대한 이해도와 그에따른 중기적인 관점에서의 영업 인프라 개선에 대한 지원과 격려, 현장과의 소통, 문제점 파악 및 솔루션 도출 등의 포인트를 잘 담아냈습니다. 그러나 요약문이 원문의 내용을 단순히 나열한 형태로, 연결성이나 흐름이 부족하여 이해하기 약간 어려울 수 있습니다. => 그럴듯하게 생성하나 사실이 아닌 내용도 있음

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI > LLM' 카테고리의 다른 글

[NLP] 허깅페이스 모델 캐시 확인하기 (2)	2024.04.02
[논문리뷰] DeepSpeed-FastGen: High-throughput Text Generation forLLMs via MII and DeepSpeed-Inference (0)	2024.01.22
[ChatGPT] GPT Store(GPTs) 오픈, 리뷰 및 사용성 검토 (0)	2024.01.17
[LLM] 오픈소스 LLM 파인튜닝 - 자체 데이터셋으로 LLaMA2 기반 한국어 LLM 파인튜닝하기 (feat. LoRA) (0)	2023.11.02
[LLM] Ko-LLM 리뷰, LLaMA2 기반 한국어 파인튜닝 모델 인퍼런스 (6)	2023.10.25

Hello, didi universe

[LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation)

LLM 기반 성능평가 관련 연구 동향 (2023)

1) Can Large Language Models Be an Alternative to Human Evaluations?