文献阅读：ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performanc

文献阅读：ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance
- 1. 内容简介 & 问题描述
- 2. 主要方法描述
- 3. 实验结果分析
  - 1. 基础实验结果考察
  - 2. 消解实验
  - 3. 可视化结果分析
- 4. 结论 & 思考

文献链接：https://arxiv.org/pdf/2005.10545v1.pdf

1. 内容简介 & 问题描述

这一篇文章是阿里提出的另一篇推荐系统的文章，思路上而言多少是接续了之前的ESMM这篇文章的，多少算是其后续的一个优化方法。

关于ESMM这个工作，相信大家基本也都了解，我之前也写过一篇小文章（文献阅读：Entire Space Multi-Task Model：An Effective Approach for Estimating Post-Click Conversion Rate）对其进行过内容整理，其针对的问题是关于SSB(Sample Selection Bias)以及DS(Data Sparsity)的，即数据选择偏差以及数据的稀疏性问题。

不过相较于ESMM模型仅仅针对CVR问题进行了一个针对性的建模与优化，而这一篇文章当中提出的ESAM方法则更加普适，可以用于各类SSB以及DS问题。

2. 主要方法描述

文章最为核心的思路还是在训练过程中加入那些长尾的数据，让模型可以见到更多的数据，进而从中学到有效的信息。

但是，不同于之前的ESMM工作当中使用隐式概率传递关系进行信号学习的方式，这里的信号学习是通过正则项的方式进行学习的。

我们首先给出模型的结构以及其对应的loss function如下：

在这里插入图片描述

$L_{S} + \lambda_1 \cdot L_{DA} + \lambda_2 \cdot L_{DC}^c + \lambda_3 \cdot L_{DC}^p$

其中， $L_{S}$ 是主Loss函数，对于不同的问题会有不同的定义，而剩余三个是三个正则项，其具体定义如下：

$L_{DA}$

$\begin{aligned} L_{DA} & = \frac{1}{L^2} \sum_{j, k}^{L}(h_j^{sT} \cdot h_k^s - h_j^{tT} \cdot h_k^t)^2 \\ & = \frac{1}{L^2} ||Cov(D^s) - Cov(D^t)||_{F}^2 \end{aligned}$

其中，s表示有反馈的数据，即经过曝光之后的标签数据，而t表示无反馈数据，即没有经过曝光的长尾数据。后者在原先的训练设置当中是无法得到训练的。

j和k表示遍历模型输出的最终的item表示的所有维度，即他的意思是说，最终输出的表示向量 $v$ 的任意两个维度之间的关系相关性应该是一个比较稳定的型号。即 $C o v (D)$ 是一个 $L\times L$ 的矩阵。

通过这个正则项，模型的目标是将那些未曾经过充分训练的item，乃至在训练中从未见过的item，都能够直接生成一个合理的embedding表示。我的理解是有点类似于GNN当中的鉴别器。
$L_{DC}^c$

$\begin{aligned} L_{DC}^c & = \sum_{j=1}^n max(0, ||\frac{v_{d_j^s}}{||v_{d_j^s}|| - c_{q}^{y_j^s}}||_2^2 - m_1) \\ & + \sum_{k=1}^{n_y} \sum_{u=k+1}^{n_y} max(0, m_2 - ||c_q^k - c_q^u||_2^2) \end{aligned}$

其中，

$c_q^k = \frac{\sum_{j=1}^n (\delta(y_j^s = Y_k) \cdot \frac{v_{d_j^s}}{||v_{d_j^s}||})}{\sum_{j=1}^{n} \delta(y_j^s = Y_K)}$

这部分正则项的物理含义是说，对于任何一个user请求（即query信号），其各个标签对应的item的embedding之间应该表现出一定的聚类特征，即一个用户点击过的商品，应该与他点击过的其他商品在表征上更为接近，而与其他未点击过的商品相互远离。

上述公式当中的 $n_y$ 表示行为标签的总个数， $y$ 表示item的行为标签， $v$ 表示item的embedding表示。
$L_{DC}^p$

$L_{DC}^p = -\frac{\sum_{j=1}^n \delta(Sc_{q, d_j^t} < p_1 | Sc_{q, d_j^t} > p_2) Sc_{q, d_j^t} log Sc_{d_j^t}}{\sum_{j=1}^n \delta(Sc_{q, d_{j}^{t}} < p_1 | Sc_{q, d_j^t} > p_2)}$

这部分正则项的物理含义事实上就是一个数据增强策略，即在计算过程中，如果对于某个long tail的数据，虽然没有标签，不过如果模型预测的概率置信度较高，那么就可以将其作为一个可信的结果补充到训练数据当中进行训练，通过这种方式来丰富训练数据。