02-04 FM与FFM

思维导图纲要

在这里插入图片描述

逻辑回归模型表达能力不强的问题，会不可避免地造成有效信息的损失。在仅利用单一特征而非交叉特征进行判断的情况下，有时不仅是信息损失的问题，甚至会得出错误的结论。著名的“辛普森悖论”用一个非常简单的例子，说明了进行多维度特征交叉的重要性。

什么是辛普森悖论

见【推荐系统-＞统计学】辛普森悖论(Simpson‘s paradox)。

书中的例子：

下表是某视频应用中男性用户和女性用户点击视频的数据。

在这里插入图片描述

从以上数据中可以看出，无论男性用户还是女性用户，对视频 B 的点击率都高于视频 A，显然推荐系统应该优先考虑向用户推荐视频 B。

而在汇总结果中，视频 A 的点击率居然比视频 B 高。如果据此进行推荐，将得岀与之前的结果完全相反的结论，这就是所谓的 “辛普森悖论”

在这里插入图片描述

在 “辛普森悖论”的例子中，分组实验相当于使用“性别”+“视频id”的组合特征计算点击率，而汇总实验则使用“视频 id” 这一单一特征计算点击率。汇总实验对高维特征进行了合并，损失了大量的有效信息，因此无法正确刻画数据模式。

逻辑回归只对单一特征做简单加权，不具备进行特征交叉生成高维组合特征的能力，因此表达能力很弱，甚至可能得出像“辛普森悖论”那样的错误结论。因此，通过改造逻辑回归模型，使其具备特征交叉的能力是必要和迫切的。（个人理解：如果视频id组合了性别这个特征，或者其他特征，可能能找出真正影响点击率的因素，单单一个视频id的点击率维度太高。后面所以才有特征交叉（=特征组合）的方法）

POLY2模型——特征交叉的开始

针对特征交叉的问题，算法工程师经常采用先手动组合特征，再通过各种分析手段筛选特征的方法，但该方法无疑是低效的。更遗憾的是，人类的经验往往有局限性，程序员的时间和精力也无法支撑其找到最优的特征组合。（我不做人啦jojo！！！😈）

因此，采用P0LY2 模型进行特征的 “暴力” 组合成了可行的选择。

P0LY2 模型的数学形式如（式 2-20 ) 所示。

在这里插入图片描述

该模型对所有特征进行了两两交叉（特征 $x_{j_1}$ 和 $x_{j_2}$ ），并对所有的特征组合赋予权重 $w_{h(j_1,j_2)}$ 。POLY2通过暴力组合特征的方式，在一定程度上解决了特征组合的问题。POLY2模型本质上仍是线性模型，其训练方法与逻辑回归并无区别，因此便于工程上的兼容。

但 POLY2 模型存在两个较大的缺陷。

( 1 ) 在处理互联网数据时，经常采用 one-hot 编码的方法处理类别型数据，致使特征向量极度稀疏，POLY2 进行无选择的特征交叉—原本就非常稀疏的特征向量更加稀疏，导致大部分交叉特征的权重缺乏有效的数据进行训练，无法收敛。
( 2 ) 权重参数的数量由n直接上升到n², 极大地增加了训练复杂度。（个人理解：特征两两组合，共有 $\frac{n(n-1)}{2}$ ，复杂度为n²）

FM模型——隐向量特征交叉

为了解决 POLY2 模型的缺陷，2010 年，Rendle 提出了 FM 模型。

( 式 2-21 ) 是 FM 二阶部分的数学形式，与 POLY2 相比，其主要区别是用两个向量的内积 $w_{j_1}·w_{j_2})$ 取代了单一的权重系数 $w_{h(j_1, j_2)}$ 。具体地说，FM为每个特征学习了一个隐权重向量（latent vector）。在特征交叉时，使用两个特征隐向量的内积（数量积、点积，结果是标量）作为交叉特征的权重。

内积概念可见文末参考文献

在这里插入图片描述

本质上，FM 引入隐向量的做法，与矩阵分解用隐向量代表用户和物品的做法异曲同工。可以说，FM 是将矩阵分解隐向量的思想进行了进一步扩展，从单纯的用户、物品隐向量扩展到了所有特征上。

隐向量的引人使 FM 能更好地解决数据稀疏性的问题。举例来说，在某商品推荐的场景下，样本有两个特征，分别是频道（ channel ) 和品牌（ brand ), 某训练样本的特征组合是(ESPN,Adidas)。在 POLY2 中，只有当 ESPN 和 Adidas 同时出现在一个训练样本中时，模型才能学到这个组合特征对应的权重；而在 FM 中，ESPN 的隐向量也可以通过(ESPN,Gucci)样本进行更新，Adidas 的隐向量也可以通过(NBC,Adidas)样本进行更新，这大幅降低了模型对数据稀疏性的要求。甚至对于一个从未岀现过的特征组合(NBC, Gucci), 由于模型之前已经分别学习过NBC 和 Gucci 的隐向量，具备了计算该特征组合权重的能力，这是 P0LY2 无法实现的。相比 P0LY2, FM 虽然丢失了某些具体特征组合的精确记忆能力，但是泛化能力大大提高。

在工程方面，FM 同样可以用梯度下降法进行学习，使其不失实时性和灵活性。

FFM模型——引入特征域的概念

相比 FM 模型，FFM 模型引人了特征域感知（ field-aware ) 这一概念，使模型的表达能力更强。

在这里插入图片描述

( 式 2-22 )是 FFM 的数学形式的二阶部分。其与 FM 的区别在于隐向量由原来的 $w_{j_1}$ 变成了 $w_{j_1,f2}$ ，这意味着每个特征对应的不是唯一一个隐向量，而是一组隐向量。当 $x_{j _1}$ 特征与 $x_{j_2}$ 特征进行交叉时， $x_{j _1}$ 特征会从 $x_{j _1}$ 的这一组隐向量中挑出与特征 $x_{j _2}$ 的域 $f_2$ 对应的隐向量 $x_{j _1,f_2}$ 进行交叉。同理。 $x_{j_2}$ 也会用与 $x_{j_1}$ 的域 $f_1$ 对应的隐向量进行交叉。

这里所说的域（field ) 具体指什么呢？简单地讲，“域” 代表特征域，域内的特征一般是采用 one-hot 编码形成的一段 one-hot 特征向量。例如，用户的性别分为男、女、未知三类，那么对一个女性用户来说，采用 one-hot 方式编码的特征向量为[0,1,0]，这个三维的特征向量就是一个“性别”特征域。将所有特征域连接起来，就组成了样本的整体特征向量。

下面介绍 Criteo FFM 的论文中的一个例子，更具体地说明 FFM 的特点。假设在训练推荐模型过程中接收到的训练样本如图 2-11 所示。

在这里插入图片描述

其中，Publisher Advertiser Gender 是三个特征域，ESPN、NIKE、Male分别是这三个特征域的特征值还需要转换成 one-hot 特征）。

如果按照 FM 的原理，特征 ESPN,NIKE 和 Male 都有对应的隐向量， $w_{ESPN},w_{NIKE},w_{Male}$ , 那么 ESPN 特征与 NIKE 特征、ESPN 特征与 Male 特征做交叉的权重应该是 $w_{ESPN}·w_{NIKE}$ 和 $w_{ESPN}·w_{Male}$ 。其中，ESPN 对应的隐向量 $w_{ESPN}$ 在两次特征交叉过程中是不变的。

而在FFM中，ESPN与NIKE、ESPN与Male交叉特殊的权重分别是 $w_{ESPN,A} \cdot w_{NIKE,P}$ 和 $w_{ESPN,G} \cdot w_{Male,P}$ 。

可以看到，ESPN 在与 NIKE 和 Male 交叉时分别使用了不同的隐向量 $w_{ESPN,A}$ 和 $w_{ESPN,G}$ ，这是由于 NIKE 和 Male 分别在不同的特征域Advertiser(A)和 Gender(G)导致的。（还可以看到， $w_{NIKE,P}$ 和 $w_{Male,P}$ 的“P”是相同的，说明它们针对Publisher§）

在 FFM 模型的训练过程中，需要学习 n个特征在f个域上的k维隐向量，参数数量共n·k·f个。在训练方面，FFM 的二次项并不能像 FM 那样简化，因此其复杂度为kn²。

相比 FM, FFM 引人了特征域的概念，为模型引人了更多有价值的信息，使模型的表达能力更强，但与此同时，FFM 的计算复杂度提高。在实际工程应用中，需要在模型效果和工程投人之间进行权衡。

从POLY2到FFM的模型演化过程

本节最后，用图示的方法回顾从 POLY2 到 FM 再到 FFM 的模型演化过程。本节仍以图 2-8 所示的训练样本为例。

P0LY2 模型直接学习每个交叉特征的权重，若特征数量为n，则权重数量为n²量级，具体为n(n-1)/2 个。如图 2-12 所示，每个彩色原点代表一个特征交叉项。

在这里插入图片描述

FM 模型学习每个特征的k维隐向量，交叉特征由相应特征隐向量的内积得到（个人理解：两个向量内积得到标量-交叉特征的权重），权重数量共nk个（个人理解：为二次项参数数量）。FM 比 POLY2 的泛化能力强，但记忆能力有所减弱，处理稀疏特征向量的能力远强于 POLY2。如图 2-13 所示，每个特征交叉项不再是单独一个圆点，而是3个彩色圆点的内积，代表每个特征有一个3维的隐向量。

更详细可见推荐系统FM & FFM算法解读与实践。（所有二次项参数 $w_{ij}$ 可以组成一个对称阵 $\vec{W}$ ，可以分解为 $\vec{V}^T \vec{V}$ ， $\vec{V}$ 的第j列( $v_j$ )便是第j维特征( $x_j$ )的隐向量。换句话说，特征分量 $x_i$ 和 $x_j$ 的交叉项系数就等于 $x_i$ 对应的隐向量与 $x_j$ 对应的隐向量的内积，即每个参数 $w_{ij} = <v_i,v_j>$ （<>为内积））（个人理解：简单地说，本来需要(n,n)维度的参数，即n²，现在只需要(n,k)维度，即n*k，就可以模拟出n²的参数来）

在这里插入图片描述

FFM 模型在 FM 模型的基础上引入了特征域的概念，在做特征交叉时，每个特征选择与对方域对应的隐向量做内积运算，得到交叉特征的权重，在有n个特征，f个特征域，隐向量维度为k的前提下，参数数量共n·k·f个。如图 2-14 所示，每个特征都有2个隐向量，根据特征交叉对象特征域的不同，选择使用对应的隐向量。（FFM模型认为 $v_i$ 不仅跟 $x_i$ 有关系，还跟与 $x_i$ 相乘的 $x_j$ 所属的Field有关系，即 $v_i$ 成了一个二维向量 $v_{F \times K}$ ，K是隐向量长度，F是Field的总个数。FFM的二次项有nf个隐向量，在FM中每一维的隐向量只有一个，FM可以看成把所有特征都归属到一个field时的FFM模型）（个人理解：简单地说就是FFM比FM多了一个维度F）