基于用户的协同过滤

协同过滤

基本思想

协同过滤（Collaborative Filtering）算法>推荐算法是最经典、最常用的算法>推荐算法。基本思想是：

根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。
- 基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐。
- 一般是仅仅基于用户的行为数据（评价、购买、下载等）, 而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。
目前应用比较广泛的协同过滤算法是基于邻域的方法，主要有：
- 基于用户的协同过滤算法（UserCF）：给用户推荐和他兴趣相似的其他用户喜欢的产品。
- 基于物品的协同过滤算法（ItemCF）：给用户推荐和他之前喜欢的物品相似的物品。

不管是 UserCF 还是 ItemCF 算法，重点是计算用户之间（或物品之间）的相似度。

相似性度量方法

1 杰卡德（Jaccard）相似系数

Jaccard 系数是衡量两个集合的相似度一种指标，计算公式如下：
$sim_{uv}=\frac{|N(u) \cap N(v)|}{|N(u)| \cup|N(v)|}$

其中 $N (u)$ ， $N (v)$ 分别表示用户 $u$ 和用户 $v$ 交互物品的集合。
对于用户 $u$ 和 $v$ ，该公式反映了两个交互物品交集的数量占这两个用户交互物品并集的数量的比例。

由于杰卡德相似系数一般无法反映具体用户的评分喜好信息，所以常用来评估用户是否会对某物品进行打分，而不是预估用户会对某物品打多少分。

2 余弦相似度
余弦相似度衡量了两个向量的夹角，夹角越小越相似。

详细可看：【推荐系统-＞相似度算法】余弦相似度

从向量的角度进行描述，令矩阵 $A$ 为用户-物品交互矩阵，矩阵的行表示用户，列表示物品。

1 设用户和物品数量分别为 $m, n$ ，交互矩阵 $A$ 就是一个 $m$ 行 $n$ 列的矩阵。

2 矩阵中的元素均为 $0 / 1$ 。若用户 $i$ 对物品 $j$ 存在交互，那么 $A_{i,j}=1$ ，否则为 $0$ 。

3 那么，用户之间的相似度可以表示为：
$sim_{uv} = cos(u,v) =\frac{u\cdot v}{|u|\cdot |v|}$

向量 $u, v$ 在形式都是 one-hot 类型， $u\cdot v$ 表示向量点积。

在 sklearn 中，余弦相似度的实现：

from sklearn.metrics.pairwise import cosine_similarity

i = [1, 0, 0, 0]
j = [1, 0, 1, 0]
cosine_similarity([i, j])

3 皮尔逊相关系数

在用户之间的余弦相似度计算时，将用户向量的内积展开为各元素乘积和：
$sim_{uv} = \frac{\sum_i r_{ui}*r_{vi}}{\sqrt{\sum_i r_{ui}^2}\sqrt{\sum_i r_{vi}^2}}$

其中， $r_{ui},r_{vi}$ 分别表示用户 $u$ 和用户 $v$ 对物品 $i$ 是否有交互(或具体评分值)。

皮尔逊相关系数与余弦相似度的计算公式非常的类似，如下：
$sim(u,v)=\frac{\sum_{i\in I}(r_{ui}-\bar r_u)(r_{vi}-\bar r_v)}{\sqrt{\sum_{i\in I }(r_{ui}-\bar r_u)^2}\sqrt{\sum_{i\in I }(r_{vi}-\bar r_v)^2}}$

其中， $r_{ui},r_{vi}$ 分别表示用户 $u$ 和用户 $v$ 对物品 $i$ 是否有交互(或具体评分值)；
$\bar r_u, \bar r_v$ 分别表示用户 $u$ 和用户 $v$ 交互的所有物品交互数量或者评分的平均值；

详细可看：Pearson(皮尔逊)相关系数、皮尔逊相关系数和余弦相似度

相较于余弦相似度，皮尔逊相关系数通过使用用户的平均分对各独立评分进行修正，减小了用户评分偏置的影响。在scipy中，皮尔逊相关系数的实现：

from scipy.stats import pearsonr

i = [1, 0, 0, 0]
j = [1, 0.5, 0.5, 0]
pearsonr(i, j)

适用场景

$J a c c a r d$ 相似度表示两个集合的交集元素个数在并集中所占的比例，所以适用于隐式反馈数据（0-1）。
余弦相似度在度量文本相似度、用户相似度、物品相似度的时候都较为常用。
皮尔逊相关度，实际上也是一种余弦相似度。不过先对向量做了中心化，范围在 $- 1$ 到 $1$ 。
- 相关度量的是两个变量的变化趋势是否一致，两个随机变量是不是同增同减。
- 不适合用作计算布尔值向量（0-1）之间相关度。