推荐系统实战（基于机器学习/深度学习）

文章目录

推荐系统介绍
- 什么是推荐系统？
- 推荐系统的应用
- 为什么需要推荐系统
- 推荐系统发展
- 推荐系统的目标
- 怎样评价推荐系统效果
- 推荐系统里的常用词
- 推荐系统经典流程
- 推荐系统的难点与挑战
- 涉及技术点分析
- 为什么需要深度学习
协同过滤与矩阵分解
- 矩阵分解中的显式与隐式特征
- 基于用户的协同过滤
- 基于物品的协同过滤
- 小例子
- 为什么需要矩阵分解
- 矩阵分解
- 矩阵分解实例
- 隐向量
- 目标函数
- 后续的改进
- 隐式情况分析
- Embedding的作用

用户行为	类型	特征	作用
评分	显式	整数量化的偏好，可能的取值是 [0,n];一般取值为 5 或者是 10	通过用户对物品的评分，可以精确的得到用户的偏好
投票	显式	布尔量化的偏好，取值是 0 或 1	通过用户对物品的投票，可以较精确的得到用户的偏好
转发	显式	布尔量化的偏好，取值是 0 或 1	而过用户对物品的投票，可以精确的得到用户的偏好
保存书签	显示	布尔量化的偏好，取值是 0 或 1	通过用户对物品的投票，可以精确的得到用户的偏好
标记标签	显示	一些单词，需要对单词进行分析，得到偏好	通过分析用户的标签，可以得到用户对项目的理解，同时可以分析出用户的情感: 喜欢还是讨厌
评论	显示	一段文字，需要进行文本分析，得到偏好	通过分析用户的评论，可以得到用户的情感:喜欢还是讨厌
点击流	隐式	一组用户的点击，用户对物品感兴趣，需要进行组分析，得到偏好	用户的点击一定程度上反映了用户的注意力，所以它也可以从一定程度上反映用户的喜好.
页面停留时间	隐式	一组时间信息，噪音大，需要进行去噪分析，得到偏好	用户的页面停留时间一定程度上反映了用户的注意力和喜好，但噪音偏大，不好利用。
购买	隐式	布尔量化的偏好，取值是 0 或 1	用户的购买是很明确的说明这个项目它感兴趣。

在这里插入图片描述

矩阵分解实例

用户-歌曲之间的行为数据
1代表听过该歌曲，0表示没有
可以想象成一个非常稀疏的矩阵
目标：预测空白值到底等于多少

那么存在这么几个问题：

这俩矩阵可有实际值
K等于多少合适呢？
其中的数值代表什么？
如何计算得到？

目标其实就是得到一个大表，分解后的矩阵还原回这个大表即可，数值即表示对当前商品喜好程度。方法蛮简单，具体怎么做呢？
在这里插入图片描述

隐向量

其实就是特征的高维表达，只不过很难去理解。例如用户的隐向量可以想象成是这个样子：
在这里插入图片描述
用户与商品向量可以当做其特征表示，这可不是随机值，可以观察下数值特点，不同颜色表示特征鲜明的地方，也就是喜好

隐向量真的可以理解吗？通常只是比喻而已，一般难以理解，例如一个50维的向量，鬼知道它具体表什么含义，没关系，咱们理解不了无所谓，计算机能更好的理解就可以了
在这里插入图片描述

目标函数

跟回归方程很像： $\min\limits_{X,Y}\sum\limits_{r_{ui}\neq0}(r_{ui}-x_u^Ty_i)^2+\lambda(\sum\limits_u)||x_u||_2^2+\sum\limits_i||y_i||_2^2)$
用户矩阵 $X=[x_1,x_2,……,x_N]$ ：商品矩阵： $Y=[y_1,y_2,……，y_M]$
N为用户个数，M为商品个数，还需注意隐向量维度
其中还额外引入了正则化惩罚项

后续的改进

如果用户就特别刁钻，评分都会很低；如果商品本身就很好，评分都较高
这里还需要注意的就是用户与商品的本身属性信息，之前公式中木有涉及
在原公式中 $\min\limits_{X,Y}\sum\limits_{r_{ui}\neq0}(r_{ui}-x_u^Ty_i)^2+\lambda(\sum\limits_u)||x_u||_2^2+\sum\limits_i||y_i||_2^2)$ 分别加入用户与商品偏置项
例如bu表示用户偏置，bi表示商品偏置

隐式情况分析

用户-商品的评分矩阵做起来非常直接，但是哪有那么正好的事啊
通常收集的数据都是用户的行为：观看时间，点击次数等指标
这种数据该怎么求解呢？首先定义置信度： $c_{ui}=1+\alpha r_{ui}$
置信度默认为1，表示用户没有产生行为的商品；行为越多，置信度越大
重新定义评分： $p_{ui}= \lbrace_{0\quad r_{ui}=0}^{1\quad r_{ui}>0}$ （有行为的则评分为1）
新的优化目标： $G(x_*,y_*)=({\sum\limits_{u,i}}c_{ui}(p_{ui}-x_u^Ty_i)^2+\lambda(\sum\limits_u||x_u||^2+\sum\limits_i||y_i||^2)$
总结起来就是置信度越大的你得预测的越准，要不损失就大了
求解过程依旧交替使用最小二乘法，固定Y优化X，再固定X优化Y