用户信息标签化的过程,就是用户画像。
特征工程:
推荐系统常见的反馈数据
基于人口统计学的,是用户的人口统计学信息,而user-cf是基于用户的行为数据。
泰坦尼克号5分,查分成用户特征矩阵P dot 电影矩阵Q,可以理解为5分拆分为几个隐含因子的表达。也可以理解为用户特征矩阵P和电影矩阵Q的相关程度。(余弦相似度分母就是矩阵点积)
P和Q的k过复杂,就会过拟合,所以加上P和Q的平方作为正则化。
或者用梯度下降的方法进行迭代