Ai技术资讯 -

一种推荐系统中的排序学习的原创算法：斯奇拉姆排序

By 51ITO
Mar 01, 2024 - 2 min read

作者 | 汪昊

审校 | 重楼

近年来，排序学习在推荐系统中的应用十分罕见。比如经典算法 BPR 和 CLiMF 早在 10 很多年前就被发明了。因此当 2023 年国际会议 AIBT 2023 当有学者提出斯奇拉姆排名时，许多观众眼前一亮。因此，该算法获得了最佳论文报告奖。本论文将引导读者对该算法的细节进行一品，从而对推荐系统算法有深入的了解。

在 2023 国际学术会议于2000年结束。 AIBT 2023 上，Ratidar Technologies LLC 宣读了一个基于公平性的排序学习算法，并获得了本次会议的最佳论文报告奖。这个算法的名字是斯奇拉姆排序。 (Skellam Rank)，在统计学中充分利用原理， Pairwise Ranking 同时解决了推荐系统中的准确性和公平性问题，以及矩阵分解。由于推荐系统中排序学习的原创算法很少，加上斯奇拉姆排序算法的优异性能，因此在会议上获得了研究奖项。

1、基本原理

以下是斯奇拉姆算法的基本原理：

首先，让我们回忆一下泊松分布：

图片

参数为泊松分布λ计算公式如下：

图片

斯奇拉姆分布着两个泊松变量的差异：

图片

我们在公式中有：

图片

函数Ik(X)叫做第一类贝塞尔函数。

以下就是统计学中最基本的概念，下面就让我们来构建一个 Pairwise Ranking 排序学习推荐系统！

首先，我们认为用户对商品的评分是一个泊松分布的概念。也就是说，用户对商品的评分服从以下概率分布:

图片

我们之所以能把用户对物品进行评分的过程描述为泊松过程，是因为用户对物品的评分有马太效应，也就是说评分越高，评分的人就越多，这样我们就可以用某个物品的评分人数来接近物品的评分分布。对某物品进行评分的人数服从哪些随机过程？自然而然，我们会想到泊松的过程。因为用户给物品打分的概率和物品有多少人打分的概率差不多，我们自然可以利用泊松过程来接近用户给物品打分的过程。

下面我们将用样本数据的统计量替代泊松过程中的参数，得到以下公式：

图片

以下是我们的定义 Pariwise Ranking 最大似然函数公式。大家都知道， Pairwise Ranking 它是指我们使用最大的似然函数来解决模型参数，使模型能最大限度地保持数据样本中已知的排序正确的关系：

图片

这是因为公式 R 这是泊松分布，因此它们之间的差异，即斯奇拉姆分布，即：

图片

其中变量 E 按照下列方法定义：

图片

在最大似然函数中，我们将斯奇拉姆分布的公式带入损失函数 L ，得到以下公式：

图片

在变量 E 用户评分出现在中间 R ，我们使用矩阵分解来解决它。向量矩阵分解中的参数用户特征 U 以及物品特征向量 V 作为待求解变量：

图片

首先，让我们回顾一下矩阵分解的概念。矩阵分解的概念是存在的 2010 一年左右提出的推荐系统算法，可以说是历史上最成功的推荐系统算法之一。到目前为止，仍有大量的推荐系统公司使用矩阵分解算法作为在线系统。 baseline，而且现在流行的经典推荐算法 DeepFM 重要组件中的重要组件 Factorization Machine，同时也推荐了矩阵分解算法在系统算法中的后续改进版本，与矩阵分解有着千丝万缕的联系。矩阵分解算法有一篇里程碑论文， 2007 年的 Probabilistic Matrix Factorization，作者利用统计学习模型重建矩阵分解线性代数中的概念，使矩阵分解首次具有扎实的数学理论基础。

矩阵分解的基本概念是利用向量的点乘，在降低用户评分矩阵维度的同时，高效预测未知用户评分。矩阵分解的损失函数如下:

图片

上海交通大学提出的矩阵分解算法有很多变种， SVDFeature，把向量 U 和 V 通过线性组合进行建模，使矩阵分解问题成为特征工程的问题。SVDFeature 也是矩阵分解领域的里程碑论文。可应用于矩阵分解。 Pairwise Ranking 用于替代未知用户评分，从而达到建模的目的，经典的应用案例包括 Bayesian Pairwise Ranking 中的 BPR-MF 算法，而斯奇拉姆排序算法就是借鉴同样的思路。

我们用随机梯度降低来解决斯奇拉姆的排序算法。由于随机梯度降低，在解决过程中可以大大简化损失函数，从而达到解决的目的，我们的损失函数已经成为以下公式:

图片

利用随机梯度降低未知参数 U 和 V 为了解决问题，我们得到了如下迭代公式：

图片

其中：

图片

另外有：

图片

其中：

图片

对未知参数变量而言 V 类似于求解，我们有以下公式：

图片

其中：

图片

另外有：

图片

其中：

图片

我们使用以下伪代码来显示整个算法的过程：

图片

2、有效性验证

为验证算法的有效性，论文作者在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 在上面进行了测试。包括第一个数据集 6040 个用户和 3706 一部电影的评分，整个评分数据集大概有 100 在推荐系统领域，万分数据是最著名的评分数据集之一。第二个数据集来自斯洛文尼亚，是基于场景的推荐系统数据集，在网上很少见。这个数据集包括在内 121 个用户和 1232 一部电影的评分。作者对斯奇拉姆进行了排序和排序。 9 对比了推荐系统算法，主要评价指标是 MAE （Mean Absolute Error，用于测试准确性)和 Degree of Matthew Effect (主要用于测试公平性)：

通过图 1 和图 2 ，我们发现斯奇拉姆排名正在进行。 MAE 这个指标表现不错，但是在这个指标上 Grid Search 在整个实验过程中，不能总是保证性能优于其它算法。但在图表中 2 中，我们发现斯奇拉姆排名正在进行。公平性指标上一骑绝尘，遥遥领先于另外 9 推荐系统算法。

接下来我们来看看这个算法。 LDOS-CoMoDa 在数据集合中的表现：

通过图3和图4，我们知道斯奇拉姆在公平性指标上排名第一，在准确性指标上表现出色。结论类似于上一个实验。

结合泊松分布、矩阵分解和斯奇拉姆排序， Pairwise Ranking 等待概念，是一种罕见的推荐系统排序学习算法。对于技术领域来说，掌握排序学习技术的人只占掌握深度学习的人数的1/6，所以排序学习是稀缺技术。而且能在推荐系统领域发明原创排序学习的人才更少。排序学习算法，将人们从狭隘的评分预测视角中解放出来，使人们意识到最重要的是顺序，而非分数。基于公平的排序学习，目前在信息检索领域，尤其是在信息检索领域， SIGIR 等待顶会，很欢迎基于公平推荐系统的论文，希望能得到读者的关注。

【作者简介】

汪昊，前 Funplus AI实验室负责人。曾在 ThoughtWorks、作为技术和技术高管，豆瓣、百度、新浪等公司。在互联网公司、金融技术、游戏等公司工作 12 2008年，对人工智能、计算机图形学、区块链等领域有着深刻的见解和丰富的经验。论文发表在国际学术会议和期刊上 42 获得IEEEE文章 SMI 2008 最佳论文奖，ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 最佳论文报告奖。