본문 바로가기
AI/NLP

[LLM] LLM 텍스트 요약 평가 관련 + 논문 리뷰

by didi0di 2023. 9. 26.
728x90

최근 LLM 모델을 활용한 요약이 BART나 T5 등 기존의 생성 요약 모델을 파인튜닝한 것보다,

심지어 사람이 요약한 것보다 더 좋다는 연구 결과가 나왔습니다.

 

그런데 이런 요약 모델의 성능 평가는 어떻게 해야 할까요?

 

기존에 텍스트 요약 과제에서, 모델 셀렉션이나 성능 평가 부분이 가장 어려웠는데요.

 

사실 요약이 잘되었다고 판단하는 부분이 지극히 주관적인 영역이라,

인간이 요약한 문장도 어떤 문장이 요약을 잘 한 것인지를 판단하기가 어렵기 때문입니다.

 

정통적으로 NLP나 summarization 부분에서 사용하는 

ROUGE 같은 정량적인 스코어도 있지만 별 의미가 없어서... 결국 휴먼 피드백이나 보팅으로 해결하곤 했습니다.

 

 

AI 모델이 요약한 문장은 어떻게 평가할 수 있을지, 평가방법에 대한 연구가 계속해서 이뤄져야 할 것 같습니다.

 

아래 포스팅에서는 LLM 기반 성능평가 관련 논문 리서치를 정리해보았습니다. 

다음글 : [LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation)

 

[LLM] LLM 기반 성능평가 논문 리서치 (LLM-based Evaluation)

관련 연구 동향 Can Large Language Models Be an Alternative to Human Evaluations? https://arxiv.org/abs/2305.01937 Can Large Language Models Be an Alternative to Human Evaluations? Human evaluation is indispensable and inevitable for assessing the qua

didi-universe.tistory.com

 

 

위에 정리한 논문들 뿐만 아니라,

 

아래 논문에서는 pairwise winning rates 라는 개념을 도입해 요약 모델의 성능 평가에 활용 했다고 합니다.

이런 아이디어도 괜찮구나 싶어서 해당 논문을 리뷰해 보았습니다.

 

Summarization is (Almost) Dead 논문 리뷰

 

- 원 논문 링크: https://arxiv.org/abs/2309.09558

 

Abstract

 

이 논문은 대규모 언어 모델(Large Language Models, LLMs)이 텍스트 요약에 어떻게 사용될 수 있는지에 대한 연구입니다.

LLMs는 인간이 작성한 요약보다 더 나은 요약을 생성할 수 있다는 것을 실험적으로 입증하였습니다. 이 논문에서는 새로운 데이터셋을 개발하고, 다섯 가지 다른 요약 작업에 대한 LLMs의 요약 생성 능력을 평가하기 위해 인간 평가 실험을 수행하였습니다.

 

실험 결과, LLMs가 생성한 요약은 인간이 작성한 요약보다 더 많은 사실적 일관성과 외생적 환각(extrinsic hallucinations)이 적은 것으로 나타났습니다. 이 논문은 텍스트 요약 분야에서 LLMs의 활용 가능성을 보여주며, 미래에는 더 높은 품질의 데이터셋과 평가 방법을 개발하여 텍스트 요약 분야에서 더 나은 성과를 이루기 위한 연구가 필요하다는 결론을 내리고 있습니다.

 

1 Introduction

 

저자들은 단일 뉴스, 다중 뉴스, 대화, 소스 코드, 언어 간 요약 등 다양한 요약 작업에 대해 사람이 생성한 평가 데이터셋을 사용하여 LLM의 성능을 평가했습니다.

 

1) LLM으로 생성된 요약, 2) 사람이 직접 작성한 요약, 3) 세밀하게 조정된 모델에 의해 생성된 요약을 정량적으로 비교한 결과,

인간 평가자들이 LLM 요약을 훨씬 더 선호하는 것으로 나타났으며, 사실성이 더 높은 것으로 나타났습니다.


이러한 작업에서 LLM의 인상적인 성능을 고려할 때 의 인상적인 성능을 고려할 때, 우리는 텍스트 요약 모델을 더욱 세분화할 필요성에 의문을 제기합니다. 더 높은 메트릭 점수. 지난 3년간 ACL에 발표된 100개의 요약 관련 논문을 샘플링하고 검토한 결과, 약 70%의 논문이 요약 접근법을 제안하고 표준 데이터셋에 대한 효과를 검증하는 것이었습니다. 따라서 저자들은 "요약은 (거의) 죽었다."라고 도발적으로 주장합니다.

 

그럼에도 불구하고, 고품질 참조 데이터셋의 필요성과 애플리케이션 지향적 접근 방식, 개선된 평가 방법 등의 기존 과제를 인정합니다.

 

 

 

2 Experimental Settings 

 

Experimental Settings 섹션에서는 인간 평가 실험의 각 단계에 대해 설명하고 있습니다.

 

 

 

2.1 Datasets

 

먼저, 실험에서 사용된 데이터셋에 대해 설명합니다.

이 논문에서는 LLMs가 훈련된 데이터와 겹치지 않도록 최신 데이터를 사용하여 새로운 데이터셋을 구축하였습니다. 각 데이터셋은 50개의 샘플로 구성되어 있습니다.

 

2.2 Models

 

다음으로, 실험에서 사용된 모델에 대해 설명합니다.

이 논문에서는 다양한 LLMs를 사용하여 요약을 생성하였습니다. 각 요약 작업에 대해 GPT-3(text-davinci-003), GPT-3.5, GPT-4를 대표 모델로 선택하였습니다. 또한, 각 요약 작업에 대해 fine-tuned 모델을 1-2개 선택하여 사용하였습니다.

 

예를 들어, single-news task에 대해서는 BART와 T5를 사용하였고, multi-news task에 대해서는 Pegasus와 BART를 사용하였습니다. 또한, cross-lingual task에 대해서는 MT5와 MBART를 사용하였고, source code task에 대해서는 Codet5를 사용하였습니다.

 

이러한 모델들은 각각 다른 요약 작업에 대해 최적화되어 있으며, 실험에서는 이러한 모델들을 사용하여 요약 생성 능력을 평가하였습니다.

 

2.3 Experimental process and details

 

마지막으로, 실험 과정과 세부 정보에 대해 설명합니다.

이 논문에서는 다섯 가지 다른 요약 작업에 대해 인간 평가 실험을 수행하였습니다.

 

각 작업에 대해 두 명의 Annotator를 고용하여 각각 50개의 질문에 대한 요약을 작성하도록 하였습니다. 각 질문에 대해 Annotator는 소스 문서와 모든 요약 시스템에서 선택된 요약을 비교하도록 요청되었습니다.

 

이후, Cohen's kappa coefficient를 계산하여 Annotator 간의 일치도를 평가하였습니다.

 

 

 

3 Experiment Results

 

 

3.1 Experiment 1: Comparing the overall quality of summaries

저자들은 다섯 가지 과제에 대해 서로 다른 시스템 간의 쌍별 승률을 비교했습니다.

 

이 실험에서는 인간 평가자들이 각 요약 시스템에서 생성된 요약들을 비교하여 요약의 전반적인 품질을 평가하였습니다. 그런 다음 연구진은 시스템 M을 시스템 N과 비교할 때 인간 평가자가 시스템 M을 선호한 비율을 나타내는 승률 N M을 계산했습니다. 이 pairwise winning rates를 계산하여 각 요약 시스템의 상대적인 전반적인 품질을 비교하였습니다. 

 

Pairwise winning rates (%) between different systems across 5 tasks.

 

PDF의 그림 1은 5개 과제에서 서로 다른 시스템 간의 쌍별 승률을 보여줍니다.

각 데이터 포인트는 비교에서 시스템 M(가로축)이 시스템 N(세로축)보다 선호된 횟수의 비율을 나타냅니다. 빨간색은 50% 이상의 승률을 나타내며 시스템 M에 대한 선호도를 나타내고, 파란색은 50% 미만의 승률을 나타내며 시스템 N에 대한 선호도를 나타내며, 색상이 진할수록 두 시스템 간의 승률 차이가 더 크다는 것을 나타냅니다.

 

실험 결과, LLMs가 모든 작업에서 fine-tuned 모델과 인간이 작성한 요약보다 우수한 성능을 보였습니다.

 

3.2 Experiment 2: Comparing the factual consistency of summaries

저자들은 인간 및 LLM(Large Language Model) 생성된 요약에서 문장 수준의 환각을 식별하기 위해 주석 달기 작업을 더 진행하여 그들의 사실 일관성 수준을 비교하였습니다. 주석 달기 비용이 상당하기 때문에 대표적인 LLM으로 GPT-4를 선택하였습니다. 표 1에 나타난 대로, 인간이 작성한 참조 요약은 GPT-4 요약과 비교하여 환각 수가 동등하거나 더 높습니다. 특히 multi-news 및 코드 요약과 같은 특정 작업에서 인간이 작성한 요약은 사실 일관성에서 현저하게 불리한 결과를 보입니다.


이 관찰된 현상을 더 깊게 이해하기 위해 저자는 이러한 사실적 오류의 유형을 조사하였습니다. Maynez 등 (2020)을 따라 우리는 모든 환각을 내재적 환각과 외재적 환각 두 범주로 나누었습니다. 내재적 환각은 요약에 있는 사실 정보와 원본 텍스트 간의 일관성 부재를 나타내며, 외재적 환각은 요약에 원본 텍스트에 없는 특정 사실 정보가 포함되어 있을 때 발생합니다.

표 2에서 볼 수 있듯이, 인간이 작성한 요약과 GPT-4 요약 모두 내재적 및 외재적 환각의 비율을 분석하여, 인간이 작성한 요약이 사실 일관성이 부족한 작업에서 외재적 환각의 현저한 빈도를 발견하였습니다(예: multi-news 및 코드). 그러나 인간과 GPT-4 간의 사실 일관성에 큰 차이가 없는 경우, 두 시스템 모두 외재적 환각의 비율이 유사합니다. 따라서 외재적 환각이 인간이 작성한 요약에서 관찰된 부적절한 사실 일관성의 근본적인 원인이라고 가설을 세웁니다.

 

3.3 Comparative Analysis

여기서는 LLM 요약의 구체적인 강점을 인간 및 세밀하게 조정된 요약과 비교 분석합니다. 구체적인 예시와 분석의 자세한 내용은 부록 B에서 제공합니다.


Reference summaries vs. LLM summaries


LLM 요약과 비교하여 인간이 작성한 참조 요약의 한 가지 문제점은 그들의 유창성 부족입니다. 그림 2(a)에서 보여진 것처럼, 인간이 작성한 참조 요약은 때로는 정보가 불완전하게 포함되어 있습니다. 또 다른 문제는 이전 장의 양적 분석에서 결론 내린 대로 몇몇 인간이 작성한 참조 요약에서 환각 현상이 나타나는 것으로 관찰되었습니다(그림 2(b) 참조).

 



Summaries generated by fine-tuned models vs. LLM summaries


LLM 요약과 비교하여 세밀하게 조정된 모델로 생성된 요약은 고정되고 엄격한 길이를 가질 경향이 있으며, 반면 LLM은 입력 정보 양에 따라 출력 길이를 조정할 수 있습니다. 또한 입력에 여러 주제가 포함된 경우, 세밀하게 조정된 모델로 생성된 요약은 이러한 주제들의 커버리지가 낮은 것으로 나타납니다(그림 3 참조), 반면 LLM은 요약을 생성할 때 모든 주제를 포착할 수 있습니다.

 

 

4 The Changing Landscape of Summarization: Seeking New Horizons

 

이 장에서는 요약의 범위가 어떻게 변하고 있는지에 대해 다루고 있습니다.

 

요약의 범위는 이전에는 단일 문서나 단일 문장에 대한 요약이 대부분이었지만, 최근에는 다양한 종류의 텍스트(뉴스, 대화, 소스 코드 등)에 대한 다중 문서 요약이나 다중 문장 요약이 더 많이 연구되고 있습니다.

 

또한, 요약의 내용도 단순한 사실 요약에서 더 나아가, 주관적인 의견이나 감정 등을 반영하는 요약도 연구되고 있습니다.

 

이러한 변화는 LLMs와 같은 최신 기술의 발전과 함께 요약 분야에서 더 다양하고 정교한 요약 기술이 개발될 수 있도록 하고 있습니다.

 

 

6 Conclusion

 

 

이 논문은 전반적으로 텍스트 요약이 LLM의 발전으로 인해 상당한 변화를 겪고 있다고 결론짓고, 데이터 세트, 방법, 평가의 세 가지 측면에 초점을 맞춰 향후 텍스트 요약 분야에서 탐구할 가치가 있는 과제에 대한 전망을 제시합니다. 이를 통해 관련 연구자들이 향후 연구에 영감을 얻을 수 있기를 바랍니다.

 

 

 

 

 

 

 

728x90

댓글