对抗训练在推荐中的应用(二):IRGAN - SIGIR2017 best paper_百度...

发布网友发布时间：2024-08-13 02:01

共1个回答

热心网友时间：2024-08-22 06:48

本文是自己在IR研究中研读的一篇顶会文章的翻译及解读，也是推荐中关于对抗训练的系列论文阅读之一
原文：IRGAN: A Minimax Game for Unifying Generative and
Discriminative Information Retrieval Models
地址： https://arxiv.org/pdf/1705.10513.pdf

对抗训练（Adversarial Training）近年来在深度学习及图像应用中广泛应用， GAN 的思想被广泛应用，大有泛滥之势，而IR中真正成功应用GAN的范文非IRGAN所属。

本文提出一种将信息检索建模（）的两个思想流派的统一的建模方法：生成检索（Generative retrieval,G）侧重于预测给定查询的相关文档(注：即 )，以及鉴别检索(Discriminative retrieval,D) 侧重于预测给定查询文档对的相关性(注：即 )。

我们提出了一种极小极大游戏理论（注：minmax game 非常重要的理论）来迭代优化两种模型。

通过这两个模型之间的竞争，证明了提出的统一框架充分利用了两种IR建模思路：

实验结果表明，在5％的精度和MAP上15.50％的显着性能提升显着超过各种应用的强大基线，包括网页搜索，物品推荐和问答。

信息检索的典型定义是在给定查询(query)的情况下提供（具有排序 rank）文档列表。它具有广泛的应用，从文本检索和网页搜索到推荐系统，问答和个性化广告[27]。 IR理论和建模主要有两个流派。

传统的思路是假设文档和信息需求之间存在潜在的随机（由query提供）。
在text ir中，经典相关性模型侧重于描述如何根据给定的信息需求生成（相关）文档：q→d，其中q是查询（例如，关键词，问题，取决于具体情况） c IR申请），d是其相应的文件（例如，文本文件，信息项，答案），箭头表示生成方向。

新思路是利用机器学习的力量，从而转向从标记的相关判断或其反馈（如点击或评级）中学习的判别（分类）解决方案。转为一种模式识别问题
它将文档和查询联合作为特征进行考虑，并根据大量训练数据预测它们的相关性或排序顺序标签：q + d→r，其中r表示相关性，符号+表示特征的组合。

虽然信息检索的生成模型在理论上是合理的并且在建模特征（例如，文本统计，文档标识符空间上的分布）方面非常成功，但是它们难以利用来自其他通道的相关性信号，例如链接，点击等。缺乏对相关性等信号的学习处理能力。虽然信息检索的判别模型（如学习排名）能够从大量标记/未标记数据中隐含地学习检索排序函数，但它们目前缺乏获取有用特征或从大量未标记数据中收集有用信号的原则方法。

结合上面的两个思路，文章提出了统一的框架：

我们有一组查询{q1，...，qN}和一组文档{d1，...，dM}。在一般情况下，查询是用户信息需求的任何特定形式，例如搜索关键字，用户简档或问题，而文档可以是文本文档，信息项或答案，这取决于特定的检索任务。对于给定的查询qn，我们有一组标记的相关文档，其大小远小于文档的总数M.
基础真实相关性分布可以表示为条件概率，描述了关于其提交的查询的候选文档上的（用户）。给定一组来自的样本作为训练数据，我们可以尝试构建两种类型的IR模型

受到GAN理念的启发，我们的目标是通过让他们玩一个极小极大游戏（注：极大极小的理念很好理解，来统一这两种不同类型的IR模型：生成检索模型将尝试生成（或选择）看起来像真实相关的相关文档文件，因此可以欺骗判别检索模型，而判别检索模型将试图明确区分地真实的相关样本和由其对手生成检索模型生成的样本

可以证明，当我们准确地知道真实的相关性分布时，上述的irgan的极小极大博弈，具有纳什均衡，其中生成器完全符合真实相关文档的分布，而判别器无法区分生成的样本和真实样本。然而，在实际应用中，真实分布是未知的，在这种情况下，生成/判别检索模型如何收敛以达到这样的平衡仍是当前研究中的一个悬而未决的问题。在我们对irgan的实证研究中，我们发现，根据特定的任务，G和D模型可能达到不同的性能水平，并且其中至少有一个模型比相应的原始模型有显著的改进。
鉴别器和生成器如何相互帮助？对于正样本，无论是否观察到，其相关得分由判别函数和条件概率密度给出，分数可能有一定的正相关。在每个训练epoch,生成器尝试在鉴别器的决策边界附近生成样本，以混淆下一轮的训练，而鉴别器则尝试将生成的样本减分。由于正向但未观察到的（即真阳性）样本和（部分）观察到的阳性样本之间存在正相关性，生成器应该能够学习使用来自鉴别器的信号，比其他样本更快地向上推这些正的但未观察到的样本。

本文该部分具体列举了三种具体应用：网页搜索、物品推荐与问答。此处仅挑物品推荐一例做说明，具体的推荐模型是常用的矩阵分解（MF），用户对物品的评分函数可定为：
其中是偏置项，而则是矩阵分解出的潜在特征向量。对应到前面公式推导中的 , 对应 .

这篇文章是推荐领域将GAN和强化学习巧妙融合在一起的佳作，也为后来者提供了（生成学术垃圾）借鉴思路。这样的框架结构还可以用于研究推荐中的exploration的问题。