[AAAI-2024] Fine-Tuning Large Language Model Based Explainable Recommendation with Explainable Quality Reward

(논문은 최대한 쉽게 이해할 수 있도록, 수식보다는 그림과 문자 위주로 리뷰 하였습니다.)

1. Problem Definition

설명 가능한 추선 시스템의 기존 방식은 다음과 같은 문제점을 갖고 있습니다.

1. 개인화 부족: LLM 기반 설명 추천 시스템은 대개 일반적인 데이터를 기반으로 학습되기 때문에 개인화된 정보가 부족합니다. 이로 인해 밑의 예시 그림처럼 사용자 맞춤형 설명을 생성하지 못하며, 사용자 선호도와 일치하지 않는 설명이 생성될 수 있습니다.

Aspose.Words.0249c0f3-4058-4d01-9481-a15a6217b858.001

2. 일관성 문제: LLM이 생성하는 설명은 정보가 과부하된 경향이 있으며, 사용자가 관심 없는 항목에 대한 불필요한 정보도 포함될 수 있습니다. 이로 인해 설명의 일관성이 떨어지고, 사용자의 경험이 저하될 수 있습니다.

3. 품질 낮은 설명 데이터: LLM을 추천 시스템 작업에 잘 적응시키기 위해서는 설명 데이터로 미세 조정이 필요하지만, 기존 데이터는 품질이 낮거나 충분하지 않습니다. 사용자 리뷰는 때때로 부실하며, 이러한 리뷰 데이터를 기반으로 모델을 학습시키는 것은 설득력 있는 설명을 생성하는 데 한계가 있습니다.

이 문제들을 해결하기 위해 저자들은 강화 학습을 사용하여 설명 품질 보상 모델을 설계하고, 이를 통해 더 높은 품질의 개인화되고 일관성 있는 설명을 생성할 수 있는 LLM2ER-EQR 모델을 제안합니다

2. Motivation

기존의 추천 시스템의 한계를 극복하기 위해 본 연구는 강화 학습을 사용하여 설명의 품질을 향상시키고, 설명 과정에서 개인화와 일관성을 동시에 높일 수 있는 방법을 탐구합니다. 특히, 설명의 품질을 개선하기 위한 설명 품질 보상 모델을 통해 사용자와 아이템 간의 상호작용을 더 깊이 반영하는 시스템을 구축하려는 것이 연구의 주요 목표입니다.

기존 연구들과 비교하여, 본 논문에서 제안된 LLM2ER-EQR 모델은 다음과 같은 차별점을 갖고 있습니다:

기존 연구는 개인화와 일관성을 동시에 해결하지 못했으나, 이 모델은 두 가지 문제를 동시에 해결하는 데 중점을 둡니다.
또한, 강화 학습을 통해 모델을 미세 조정함으로써, 인간의 피드백 없이도 설명의 품질을 스스로 학습하는 능력을 가집니다.
마지막으로, 개념 일관성 보상 모델과 고품질 정렬 보상 모델을 결합하여 설명의 질을 높이는 것이 차별화된 아이디어입니다.

3. Method

Aspose.Words.0249c0f3-4058-4d01-9481-a15a6217b858.002

본 논문에서 제안하는 방법론은 LLM2ER라는 대형 언어 모델 기반 설명 추천 시스템을 강화 학습 기법으로 미세 조정하여 LLM2ER-EQR 모델을 구축하는 과정입니다. 이 과정에서 설명의 개인화와 일관성을 보장하고, 고품질 설명 데이터를 기반으로 학습할 수 있도록 여러 모델을 사용합니다.

1) LLM2ER Backbone

LLM2ER는 기본적으로 사용자와 아이템 간의 상호작용을 반영하여 개인화된 설명을 생성하는 시스템입니다. 이를 위해 협력적 개념 기반 평가 예측 모듈과 개인화된 프롬프트 학습 모듈을 사용합니다.

협력적 개념 기반 평가 예측 모듈: 사용자의 선호도와 아이템의 특성을 반영한 개념 그래프를 통해 평가를 예측합니다. 이는 이질적인 그래프 변환기(HGT, Heterogeneous Graph Transformer)를 이용하여 사용자와 아이템의 임베딩을 학습합니다. 이를 통해 사용자가 아이템에 부여할 평가를 예측하는데, 수식으로는 다음과 같이 표현됩니다:

$ \hat{r}_ {u,v} = \text{MLP}([\mathbf{h}_ u, \mathbf{h}_ v]) $

여기서 $\mathbf{h}_ u$와 $\mathbf{h}_ v$는 사용자와 아이템의 노드 임베딩을 나타내며, MLP는 다층 퍼셉트론을 의미합니다. 이 예측값은 실제 평가 $r_ {u,v}$와 비교하여 평균 제곱 오차(MSE) 손실을 최소화합니다:

$ L_r = \frac{1}{\vert \Omega_ {\text{train}} \vert} \sum_ {(u,v) \in \Omega_ {\text{train}}} \left( r_ {u,v} - \hat{r}_ {u,v} \right)^2 $
개인화된 프롬프트 학습 모듈: 사용자의 선호도와 아이템 특성을 반영한 개인화된 프롬프트를 생성하여, 이를 대형 언어 모델(LLM)에 입력합니다. 이때, 프롬프트에는 사용자 임베딩 $\mathbf{p}_ u$, 아이템 임베딩 $\mathbf{q}_ v$, 감정 표현 $s_ {u,v}$ 및 후보 개념 집합 ${c}_ {u,v}$이 포함됩니다:

$ x_ {u,v} = [I, \mathbf{p}_ u, \mathbf{q}_ v, s_ {u,v}, {c}_ {u,v}] $

여기서 $[I, \mathbf{p}_ u, \mathbf{q}_ v, s_ {u,v}, {c}_ {u,v}]$는 프롬프트를 구성하는 다양한 정보 요소입니다. 이 프롬프트를 통해 설명을 생성하는 과정은 다음과 같습니다:

$ \hat{e}_ {u,v,i} = \arg\max_ {e_ {u,v,i}} P_ {\text{LLM}}(e_ {u,v,i} \vert x_ {u,v}, \hat{e}_ {u,v,<i}) $

여기서 $i$번째 단어는 이전까지 생성된 단어 $\hat{e}_ {u,v,<i}$와 프롬프트 $x_ {u,v}$에 따라 결정됩니다.

2) 강화 학습을 통한 미세 조정

LLM2ER을 강화 학습으로 미세 조정하여 설명의 품질을 높이는 것이 이 논문의 핵심입니다. 이를 위해 두 가지 보상 모델을 도입합니다.

개념 일관성 보상 모델 (Concept Consistent Reward Model, CCR): 생성된 설명과 후보 개념들 간의 유사도를 계산하여 보상을 제공합니다. BERT 임베딩을 활용하여 생성된 설명과 후보 개념 간의 코사인 유사도를 계산하고, 보상은 다음과 같이 정의됩니다:

$ R_ {\text{CCR}}(\hat{e}_ {u,v}, {c}_ {u,v}) = \cos\left( \text{avg}(\text{BERT}(\hat{e}_ {u,v})), \text{avg}(\text{BERT}({c}_ {u,v})) \right) $
고품질 정렬 보상 모델 (High-Quality Alignment Reward Model, HQAR): 생성된 설명이 고품질 데이터와 얼마나 일치하는지를 평가합니다. 생성된 설명을 판별자(Discriminator)에 입력하여 가짜로 분류되는 손실을 통해 보상을 계산합니다:

$ R_ {\text{HQAR}}(\hat{e}_ {u,v}) = -\sum_ {i=1}^{n} \log(1 - P_ D(\hat{e}_ {u,v,i})) $

여기서 $P_ D$는 판별자가 예측한 설명의 진실성 확률을 나타냅니다.

3) 훈련 과정

훈련 과정은 크게 네 가지 단계로 이루어집니다:

평가 예측 모듈 학습: 평가 예측 손실 $L_r$을 최소화하여 사용자와 아이템 간의 상호작용을 학습합니다.
LLM 기반 설명 생성: 설명 생성 손실 $L_e$를 최소화하며, 실제 설명과 생성된 설명 간의 차이를 학습합니다:

$ L_e = \frac{1}{\vert \Omega_ {\text{train}} \vert} \sum_ {(u,v) \in \Omega_ {\text{train}}} \frac{1}{n} \sum_ {t=1}^{n} -\log P(\hat{e}_ {u,v,t}) $

보상 모델 학습: CCR과 HQAR 모델을 학습하여 설명의 일관성 및 품질을 높입니다.
최종 미세 조정: 두 보상 모델을 기반으로 강화 학습을 적용하여 최종적으로 개인화되고 고품질의 설명을 생성할 수 있도록 만듭니다. 최종 보상은 다음과 같이 정의됩니다:

$ R(x_ {u,v}, \hat{e}_ {u,v}) = \lambda_ {\text{CCR}} R_ {\text{CCR}}(\hat{e}_ {u,v}, {c}_ {u,v}) + \lambda_ {\text{HQAR}} R_ {\text{HQAR}}(\hat{e}_ {u,v}) $

여기서 $\lambda_ {\text{CCR}}$과 $\lambda_ {\text{HQAR}}$는 각각 CCR과 HQAR 보상의 중요도를 조절하는 하이퍼파라미터입니다.

Example for Understanding

예를 들어, 사용자가 “Star Wars” 영화를 본 후 설명을 요청할 때, 기존 시스템은 단순히 영화의 줄거리나 인기 요소를 설명하는데 그칠 수 있습니다. 그러나 LLM2ER-EQR 모델은 사용자의 이전 리뷰와 평가를 분석하여, “Star Wars”에서 사용자가 좋아하는 특정 주제(예: “전쟁”이나 “영웅의 여정”)에 초점을 맞춘 개인화된 설명을 제공할 수 있습니다. 또한 이 설명은 데이터 기반으로 생성되며, 높은 품질을 유지하기 위해 강화 학습을 통해 보상받습니다.

이를 통해 사용자는 자신이 관심 있어 하는 정보에 맞춘 설명을 제공받을 수 있으며, 이는 사용자 경험을 크게 향상시킵니다.

Experiment

Experiment Setup

Aspose.Words.0249c0f3-4058-4d01-9481-a15a6217b858.003

1) Dataset

실험에는 세 가지 공공 추천 데이터셋이 사용되었습니다:

Amazon (Movies & TV): 이 데이터셋은 영화 및 TV 쇼에 대한 사용자 리뷰와 평점을 포함하고 있으며, 개인화된 설명 추천을 테스트하는 데 적합합니다.
Yelp (2019): 이 데이터셋은 다양한 비즈니스에 대한 리뷰와 평점을 포함하고 있어, 다양한 분야에서 설명의 개인화 및 일관성을 검증할 수 있습니다.
TripAdvisor: 이 데이터셋은 여행 관련 리뷰와 평점을 포함하며, 여행객의 선호도와 경험을 반영한 설명을 생성하는 데 사용됩니다.

데이터셋 통계는 다음과 같습니다:

Amazon: 사용자 7,506명, 아이템 7,316개, 설명 432,075개
Yelp: 사용자 27,147명, 아이템 18,172개, 설명 1,189,056개
TripAdvisor: 사용자 9,765명, 아이템 5,429개, 설명 296,118개

2) Baseline

모델 성능을 비교하기 위해 다음과 같은 Baseline모델들이 사용되었습니다:

CAML: GRU 기반의 설명 생성 모델로, 기본적인 설명 추천 시스템입니다.
NETE: 템플릿 기반으로 설명을 생성하는 모델로, 설명의 일관성을 높이려고 시도합니다.
ReXPlug: 플러그 앤 플레이 방식의 모델로, 설명을 제어하여 생성하는 시스템입니다.
PETER: 대형 언어 모델 기반의 추천 시스템으로, 설명 생성에 개인화된 정보를 포함합니다.
PEVAE: 변이형 오토인코더 기반으로 데이터를 학습하여 설명을 생성하는 시스템입니다.
PRAG: 설명 내 오류 문제를 해결하는 모델로, 설명의 정확성을 높이는 데 중점을 둡니다.

3) Evaluation Metric

다양한 평가 지표를 사용하여 모델의 성능을 평가했습니다:

BLEU (Bilingual Evaluation Understudy): 생성된 설명의 문법적 유창성을 평가하기 위한 지표입니다.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 설명의 요약 능력을 평가하며, 텍스트 간의 유사도를 측정합니다.
Distinct-1, Distinct-2: 설명 내에서 얼마나 다양한 단어가 사용되었는지를 평가합니다.
Concept Overlapping Ratio (COR): 동일한 아이템에 대한 설명에서 개념의 중복성을 측정하여, 설명의 개인화를 평가합니다.
Concept Matching Ratio (CMR): 설명 내 개념이 사용자 선호도와 아이템 특성과 얼마나 일치하는지를 평가하는 지표입니다.

Experiment Results

Aspose.Words.0249c0f3-4058-4d01-9481-a15a6217b858.004

실험 결과, LLM2ER-EQR모델은 모든 데이터셋에서 Baseline모델들을 능가하는 성능을 보여주었습니다. 특히, BLEU와 ROUGE점수에서 높은 성과를 나타내었으며, 이는 생성된 설명이 문법적으로 유창하고 정보가 풍부하다는 것을 의미합니다.

Amazon 데이터셋에서 BLEU-4점수는 LLM2ER-EQR모델이 1.572로, 기존 Baseline인 CVAEs모델의 1.504보다 4.52%개선되었습니다.
Yelp 데이터셋에서는 ROUGE-L점수가 LLM2ER-EQR에서 16.901로, 기존 최고 성능 모델인 PRAG의 15.789보다 7.14%향상되었습니다.
TripAdvisor 데이터셋에서는 Distinct-2점수가 LLM2ER-EQR모델에서 72.601로 가장 높았으며, 설명의 다양성과 정보성이 가장 뛰어나다는 것을 보여줍니다.

또한 COR와 CMR측정에서 LLM2ER-EQR은 가장 낮은 중복성과 높은 개념 일치를 보이며, 개인화된 설명의 품질을 입증했습니다.

결론적으로, 제안된 모델은 기존 방법들보다 개인화된 설명을 생성하며, 정보성과 일관성측면에서 매우 우수한 성능을 보여주었습니다.

6. Conclusion

이 논문은 대형 언어 모델(LLM) 기반 설명 추천 시스템의 성능을 향상시키기 위해 LLM2ER-EQR이라는 새로운 모델을 제안했습니다. 기존 시스템이 가진 개인화 부족, 설명의 일관성 문제, 그리고 품질 낮은 데이터의 한계를 극복하기 위해, 강화 학습을 사용한 보상 모델을 설계하여 설명의 품질을 크게 개선했습니다.

Key Takeaways:

강화 학습은 모델이 설명의 품질을 스스로 개선할 수 있도록 하는 강력한 방법으로 작용했습니다.
개인화된 설명이 사용자 경험을 높이는 데 중요한 역할을 하며, 설명의 일관성을 높이는 것이 추천 시스템의 신뢰성을 강화합니다.
보상 기반 학습을 통해, 인간 피드백 없이도 시스템이 고품질 설명을 제공할 수 있는 모델로 발전할 수 있음을 보여줍니다.

Take Home Message:

이 연구의 핵심은 추천 시스템의 설명이 단순한 정보 제공이 아닌, 사용자 맞춤형으로 전달되어야 한다는 것입니다. 이를 통해 사용자는 더 나은 선택을 할 수 있게 되고, 추천 시스템의 신뢰성도 자연스럽게 증가합니다. LLM과 강화 학습의 결합은, 복잡한 사용자 요구를 반영하는 개인화된 설명 시스템을 구현하는 데 매우 효과적임을 증명했습니다.

제 개인적인 의견으로는, 이 연구는 향후 추천 시스템의 설명 가능성과 신뢰성에 대한 연구 방향에 큰 기여를 할 수 있을 것으로 보입니다. AI 기반 추천 시스템이 단순한 정보 전달에서 벗어나, 사용자에게 맞춤형 정보를 제공하는 것이 앞으로 더욱 중요해질 것입니다. LLM2ER-EQR모델은 그 가능성을 제시하는 좋은 예시입니다.

Author Information

Author name: Mengyuan Yang, Mengying Zhu, Yan Wang, Linxun Chen, Yilei Zhao, Xiuyuan Wang, Bing Han, Xiaolin Zheng, Jianwei Yin
- Affiliation: Zhejiang University, China; Macquarie University, Australia; MYbank, Ant Group, China
- Research Topic:Fine-Tuning Large Language Model-Based Explainable Recommendation with Explainable Quality Reward