1. 推荐系统评价指标
用户满意度:评测推荐系统是否优秀最基本的指标;
预测准确度:评价一个推荐算法最重要的指标,从推荐系统诞生的时候开始,几乎所有的论文都在讨论这个指标。
评分预测:许多提供推荐服务的产品都有提供对一个物品进行评分的功能,预测用户对物品评分的算法称为“评分预测算法”。评价一个评分预测算法的准确度,通常有两种方式:
- 均方根误差:$\displaystyle RMSE = \sqrt{\frac{\sum_{u, i \in T} (r_{ui} - \hat{r}_{ui})}{|T|}}$,会加大对预测不准确的惩罚;
- 平均绝对误差:$\displaystyle MAE = \frac{\sum_{u, i \in T} | r_{ui} - \hat{r}_{ui}|}{|T|}$;
TopN推荐:提供推荐服务的产品,一般会给用户提供一个个性化推荐的列表。一般通过“召回率”和“准确率”度量一个 TopN 推荐算法的准确度。设
R(u)
是通过算法推荐列表,T(u)
是测试集的行为列表:- 召回率:$\displaystyle Recall = \frac{\sum_{u \in U} |R(u) \cap T(u)|}{ |T(u)| }$;
- 准确率:$\displaystyle Precision = \frac{\sum_{u \in U} |R(u) \cap T(u)|}{ |R(u)| }$;
覆盖率:描述一个推荐系统对长尾的发掘能力。
公式化定义,推荐系统的覆盖率可以用下面的公式计算:$\displaystyle Coverage = \frac{| U_{u \in U} R(u) |}{|I|}$
相同的概念在其他的专业学科中都有类似的阐述:
- 信息论中的信息熵:$\displaystyle H = -\sum_{i = 1}^{n} p_i \ln{p_i}$。信息论中的 $p_i$ 表示一个信息出现的概率,所有信息出现的概率均等,则信息熵取到最大值。这里用“流行度”来表示 $p_i$ 则能用于评估推荐系统的覆盖率指标;
- 经济学中的基尼系数:$\displaystyle G = \frac{1}{n - 1} \sum_{j = 1}^{n} (2j - n - 1)p_{i_j}$。经济学中的 $p_{i_j}$ 表示将社会人群按照财富排序后,排在第 j 位的人在社会总财富中的占比,所有人的财富均等时基尼系数取到最小值 0。这里可以用“流行度”代替“财富”评估推荐系统的覆盖率;
- 社会学中有一个著名的“马太效应”理论,即所谓强者更强,弱者更弱。
很多研究表明现在的主流推荐算法(比如协同过滤算法)都是具有马太效应的。
多样性:描述了推荐列表中物品的两两之间的不相似性。
假设我们给定了两个物品的相似性计算函数 $s(i, j) \in [0, 1]$,那么:
- 用户
u
的推荐列表R(u)
的多样性定义为:$\displaystyle Diversity(R(u)) = 1-\frac{\sum_{i,j\in R(u), i \not = j} s(i,j)}{\frac{1}{2} |R(u)| (|R(u)| - 1)}$,即 s 的均值。 - 推荐系统的整体多样性也可以简单地求平均值:$\displaystyle Diversity = \frac{1}{|U|}\sum_{u \in U} Diversity(R(u))$
- 用户
新颖性:给用户推荐那些它们之前没有听说过的物品;
惊喜性(serendipity):如果推荐结果与用户的历史兴趣不相似,但是却能让用户满意,那么就可以说推荐的结果惊喜度很高;
信任度:用户对推荐系统的不同信任度,会导致用户对相同的推荐结果有着不同的反应;
实时性:对于具有很强实时性的物品,需要在物品还具有时效性的时候推荐给用户;
健壮性:即反作弊。用常用的攻击方法向数据集中注入噪声数据,然后利用算法在注入了噪声后的数据集再生成推荐列表,比较推荐结果评测算法的健壮性;