viberec
/

ML-100k-SASRec-MODPO

Reinforcement Learning

recommender-system

Model card Files Files and versions

SASRec - ml-100k (Finetuned with MODPO)

Model Description

This model is fine-tuned from viberec/ML-100k-SASRec using Multi-Objective Direct Preference Optimization (MODPO).

Training Results

Baseline (Before Finetune)

ndcg@10: 0.0681
hit@10: 0.148
averagepopularity@10: 164.4179
giniindex@10: 0.7077
itemcoverage@10: 0.7247
shannonentropy@10: 0.0081
tailpercentage@10: 0.0108

Best Valid Results (MODPO)

ndcg@10: 0.0672
hit@10: 0.1416
averagepopularity@10: 178.2734
giniindex@10: 0.8001
itemcoverage@10: 0.5231
shannonentropy@10: 0.0105
tailpercentage@10: 0.0112

Test Results (MODPO)

ndcg@10: 0.071
hit@10: 0.1523
averagepopularity@10: 176.2649
giniindex@10: 0.8004
itemcoverage@10: 0.532
shannonentropy@10: 0.0103
tailpercentage@10: 0.0113

RL Hyperparameters

Alpha: 0.8
KL Beta: 0.08
Group Size: 8
Learning Rate: 5e-05

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning

loading