Neural Factorization Machine -学习笔记

动机

在推荐系统中，交叉特征(Cross Features)可以深入挖掘特征之间的潜在关系，提升模型效果。例如，把职业特征 $occupation=\left\{banker,doctor\right\}$ 和性别特征 $gender=\left\{M,F\right\}$ 进行交叉组合，可以得到新特征 $occupation\_gender=\left\{banker\_M,banker\_F,doctor\_M,doctor\_F\right\}$

Factorization Machine(FM)是挖掘交叉特征有代表性的模型，它的表达式如下：
$y_{FM}(x) = w_0+\sum^n_{i=1}w_ix_i+\sum^n_{i=1}\sum^n_{j=i+1}v_i^Tv_j·x_ix_j$
上式中， $\sum^n_{i=1}w_ix_i$ 是一阶特征， $\sum^n_{i=1}\sum^n_{j=i+1}v_i^Tv_j·x_ix_j$ 是二阶交叉特征。FM的精髓在于用两个隐向量( $v_i、v_j$ )的内积来表示特征组合 $x_i,x_j>$ 的权重。这种通过更新隐向量来更新组合权重的方式不需要保证该组合存在，从而使模型具有一定的泛化性。

本篇论文的作者认为，FM虽然具备较好的特征交叉能力，但是它的缺点也很明显：FM的特征交叉方式本质上是线性组合，并且特征交叉的阶数也局限于二阶，原因是如果阶数过高，会引发组合爆炸问题，带来巨大的计算负担。

针对上述问题，论文作者提出了Neural Factorization Machine(NFM)。该模型使用深度神经网络(DNNs)取代上面FM式子中的二阶项，让DNNs来负责特征交叉的建模，如下面式子所示：
$y_{FM}(x) = w_0+\sum^n_{i=1}w_ix_i+f(x)$
同时，为了防止网络层数过深导致的退化问题，作者还设计了一种新的特征交叉网络层——Bi-Interaction Layer。

Neural Factorization Machine

NFM的网络架构图如下所示：
在这里插入图片描述
其实，上图中只画出了NFM的二阶特征交叉部分，一阶部分和FM类似，这里不再赘述。在NFM中，负责特征交叉的是B-Interaction Layer和Hidden Layers。

在B-Interaction Layer中，作者提出了一种名为Bi-Interaction Pooling的操作，表达式为：
$f_{BI}(V_x) = \sum_{i=1}^n\sum_{j=i+1}^nx_iv_i⊙x_jv_j$
其中 $⊙$ 是点对点乘积(element-wise product)， $v_i,v_j$ 分别是 $x_i,x_j$ 对应的隐向量。

HIdden Layers的表达式如下：
$z_1 = σ_1(W_1f_{BI}(V_x)+b_1) \\ z_2 = σ_2(W_2z_1+b_2) \\ ……\\ z_L=σ_L(W_Lz_{L-1}+b_L)$
最后，向量 $z_L$ 通过预测层得到最终的预测分数：
$f(x) = h^Tz_L$