강현구임

Self-Attentive Sequential Recommendation

2024년 11월 18일

Self-Attentive Sequential Recommendation

Abstract

연구 배경

추천 시스템에서 순차적 동적(Sequential dynamics)은 핵심 특징
사용자의 최근 행동을 기반으로 ‘컨텍스트’를 파악하는 것이 목표

기존 접근 방식

마르코프 체인(MC): 사용자의 다음 행동을 최근 몇 개의 행동으로만 예측
순환 신경망(RNN): 더 장기적인 의미론적 패턴을 파악 가능

기존 방식의 특징

MC: 매우 sparse한 데이터셋에서 좋은 성능
RNN: 더 dense한 데이터셋에서 좋은 성능

제안하는 방법 (SASRec)

Self-attention 기반 순차 모델
RNN처럼 장기적 의미를 파악하면서도
MC처럼 적은 수의 행동으로 예측 가능
각 시점마다 사용자 행동 기록에서 ‘관련성 있는’ 아이템을 식별

연구 결과

희소/밀집 데이터셋 모두에서 SOTA 성능 달성
MC/CNN/RNN 기반 접근법보다 우수한 성능
기존 CNN/RNN 모델보다 10배 더 효율적
Attention weight 시각화를 통해 모델의 적응성 확인

Introduction

순차 추천 시스템의 목표

사용자의 과거 행동 기반의 개인화 모델과
최근 행동 기반의 ‘컨텍스트’를 결합하는 것

순차적 패턴 캡처의 주요 도전과제

입력 공간의 차원이 과거 행동 수에 따라 기하급수적으로 증가
이런 고차원 동적 패턴을 어떻게 간결하게 포착할 것인가가 핵심 연구 문제

기존 접근법들의 특징과 한계

a) 마르코프 체인(MC)

다음 행동이 이전 행동(들)에만 조건부로 의존한다고 가정
아이템 간의 단기 전이(transition) 특성을 잘 포착
장점: 높은 희소성(high-sparsity) 환경에서 잘 작동
단점: 복잡한 시나리오의 미묘한 동적 특성을 포착하지 못할 수 있음

b) 순환 신경망(RNN)

모든 이전 행동을 hidden state로 요약
이를 통해 다음 행동을 예측
장점: 표현력이 뛰어남
단점: 많은 양의 데이터가 필요함

이 부분에서는 두 가지 주요 접근법의 trade-off를 명확히 보여주고 있습니다:

MC: 단순하지만 sparse 데이터에 강함
RNN: 복잡하고 표현력이 좋지만 많은 데이터 필요

Transformer의 영향

기계 번역 분야에서 SOTA 성능과 효율성 달성
기존의 CNN, RNN과 달리 ‘self-attention’ 메커니즘만 사용
문장 내 단어 간의 구문적/의미적 패턴을 효과적으로 포착

SASRec(Self-Attention based Sequential Recommendation) 모델 제안

Transformer의 self-attention을 추천 문제에 적용
RNN처럼 과거 모든 행동에서 컨텍스트 추출 가능
MC처럼 소수의 관련 행동만으로 예측 가능
각 시점마다 이전 아이템들에 가중치를 적응적으로 할당

모델의 주요 장점들

a) 성능

여러 벤치마크 데이터셋에서 SOTA MC/CNN/RNN 기반 방법들 능가
데이터 희소성에 따른 적응적 동작
- Dense 데이터셋: 장기 의존성 고려
- Sparse 데이터셋: 최근 활동에 집중

b) 효율성

Self-attention block이 병렬 처리에 적합
CNN/RNN 기반 대안들보다 10배 빠른 속도

논문의 분석 범위

복잡도와 확장성 분석
주요 컴포넌트들의 효과를 보여주는 ablation study
Attention 가중치 시각화를 통한 모델 동작 분석

이 논문의 핵심 contribution은:

Transformer의 self-attention을 추천 시스템에 성공적으로 적용
데이터 희소성에 따라 적응적으로 동작하는 유연한 모델 설계
높은 성능과 효율성의 동시 달성