问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

对抗训练在推荐中的应用(二):IRGAN - SIGIR2017 best paper_百度...

发布网友 发布时间:2024-08-13 02:01

我来回答

1个回答

热心网友 时间:2024-08-22 06:48

本文是自己在IR研究中研读的一篇顶会文章的翻译及解读,也是推荐中关于对抗训练的系列论文阅读之一
原文:IRGAN: A Minimax Game for Unifying Generative and
Discriminative Information Retrieval Models
地址: https://arxiv.org/pdf/1705.10513.pdf

对抗训练(Adversarial Training)近年来在深度学习及图像应用中广泛应用, GAN 的思想被广泛应用,大有泛滥之势,而IR中真正成功应用GAN的范文非IRGAN所属。

本文提出一种将信息检索建模( )的两个思想流派的统一的建模方法: 生成检索(Generative retrieval,G) 侧重于预测给定查询的相关文档(注:即 ),以及 鉴别检索(Discriminative retrieval,D) 侧重于预测给定查询文档对的相关性(注:即 )。

我们提出了一种 极小极大游戏理论 (注:minmax game 非常重要的理论)来迭代优化两种模型。

通过这两个模型之间的竞争,证明了提出的统一框架充分利用了两种IR建模思路:

实验结果表明,在5%的精度和MAP上15.50%的显着性能提升显着超过各种应用的强大基线,包括 网页搜索,物品推荐和问答。

信息检索的典型定义是在 给定查询(query)的情况下提供(具有排序 rank)文档列表 。 它具有广泛的应用,从文本检索和网页搜索到推荐系统,问答和个性化广告[27]。 IR理论和建模主要有两个流派。

传统的思路是假设文档和信息需求之间存在潜在的随机 (由query提供) 。
在text ir中, 经典相关性模型侧重于描述如何根据给定的信息需求生成(相关)文档 :q→d,其中q是查询(例如,关键词,问题,取决于具体情况) c IR申请),d是其相应的文件(例如,文本文件,信息项,答案),箭头表示生成方向。

新思路是利用机器学习的力量,从而转向从标记的相关判断或其反馈(如点击或评级)中学习的判别(分类)解决方案。转为一种模式识别问题
它将文档和查询联合作为特征进行考虑,并根据大量训练数据预测它们的相关性或排序顺序标签:q + d→r,其中r表示相关性,符号+表示特征的组合。

虽然信息检索的生成模型在理论上是合理的并且在建模特征(例如,文本统计,文档标识符空间上的分布)方面非常成功, 但是它们难以利用来自其他通道的相关性信号,例如链接,点击等。 缺乏对相关性等信号的学习处理能力 。虽然信息检索的判别模型(如学习排名)能够从大量标记/未标记数据中隐含地学习检索排序函数, 但它们目前缺乏获取有用特征或从大量未标记数据中收集有用信号的原则方法 。

结合上面的两个思路,文章提出了统一的框架:

我们有一组查询{q1,...,qN}和一组文档{d1,...,dM}。 在一般情况下,查询是用户信息需求的任何特定形式,例如搜索关键字,用户简档或问题,而文档可以是文本文档,信息项或答案,这取决于特定的检索任务。 对于给定的查询qn,我们有一组标记的相关文档,其大小远小于文档的总数M.
基础真实相关性分布可以表示为条件概率 ,描述了关于其提交的查询的候选文档上的(用户) 。 给定一组来自 的样本作为训练数据,我们可以尝试构建两种类型的IR模型

受到GAN理念的启发,我们的目标是通过让他们玩一个 极小极大游戏 (注:极大极小的理念很好理解, 来统一这两种不同类型的IR模型: 生成检索模型将尝试生成(或选择)看起来像真实相关的相关文档 文件,因此可以欺骗判别检索模型,而判别检索模型将试图明确区分地真实的相关样本和由其对手生成检索模型生成的样本

可以证明,当我们准确地知道真实的相关性分布时, 上述的irgan的极小极大博弈,具有纳什均衡 ,其中生成器完全符合真实相关文档的分布,而判别器无法区分生成的样本和真实样本。然而,在实际应用中, 真实分布是未知的 ,在这种情况下,生成/判别检索模型如何收敛以达到这样的平衡仍是当前研究中的一个悬而未决的问题。在我们对irgan的实证研究中,我们发现,根据特定的任务,G和D模型可能达到不同的性能水平,并且其中至少有一个模型比相应的原始模型有显著的改进。
鉴别器和生成器如何相互帮助? 对于正样本,无论是否观察到,其相关得分由判别函数 和条件概率密度 给出,分数可能有一定的正相关。在每个训练epoch,生成器尝试在鉴别器的决策边界附近生成样本,以混淆下一轮的训练,而鉴别器则尝试将生成的样本减分。由于正向但未观察到的(即真阳性)样本和(部分)观察到的阳性样本之间存在正相关性,生成器应该能够学习使用来自鉴别器的信号,比其他样本更快地向上推这些正的但未观察到的样本。

本文该部分具体列举了三种具体应用:网页搜索、物品推荐与问答。此处仅挑物品推荐一例做说明,具体的推荐模型是常用的矩阵分解(MF),用户对物品的评分函数可定为:
其中 是偏置项,而 则是矩阵分解出的潜在特征向量。 对应到前面公式推导中的 , 对应 .

这篇文章是推荐领域将GAN和强化学习巧妙融合在一起的佳作,也为后来者提供了( 生成学术垃圾 )借鉴思路。这样的框架结构还可以用于研究推荐中的exploration的问题。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
骐达,polo,现代悦动哪个好? 请问一下是伊兰特悦动好还是polo尽情好 谢谢了 寒食节和清明节合二为一了吗 寒食节和清明节的关系寒食节和清明节是不是一个节日 寒食节是清明节吗寒食节与清明节的关系 寒食节和清明节有什么关系,寒食节和清明节的区别 图案一块西瓜一个柠檬的地名? 苏州招商银行最多能办几张主卡 我的房产证是四川的,我想在苏州做贷款可以吗 陈衍庶陈衍庶与张作霖 怀孕少量出血怎么回事 与一个痛风群的家属及病友医患问答 小肚子鼓是什么原因 小腹为什么会突然变鼓 珠海自由行攻略及费用 养老金交300%退休后能领多少钱? 交300养老保险60岁一个月领多少? 儿童纱布浴巾怎么选比较实用? 白朗姆和金朗姆 牙买加郎姆酒牙买加郎姆酒的主要分类 白朗姆保质期 95320按几转人工 临床心理学临床概念 临床心理学的意思? 临床心理学是什么意思? 双曲正弦函数加常数开根号的积分 ∫(x^2+√x)dx (x的平方+根号x)dx,计算定积分. x的平方加1开根号再除以x的不定积分 怎么用农商银行卡网上充值手机话费 咳嗽有痰吃什么好的快 咳嗽有痰吃什么有效果 被砸死了,皇帝是谁呢? 是不是签了三方协议就不能签劳动合同 在学校签订的三方协议算劳动合同吗? 他是古代力气最大的皇帝 撒尿发黄泡沫怎么回事 工厂用吸尘器厂家 小便总发黄什么原因 男人长期尿黄是什么原因 尿黄的原因是什么 怎么查看自己在淘宝总共花了多少钱? 八小时工作制包含午饭时间吗 什么牌子的打印机好用啊? 劳动法八小时包括吃饭时间吗 中国铁塔什么行业 膳食小排怎么弄 win10系统如何进入管理员模式 葱烧子排怎么做营养又好吃? 小排炖什么好吃 男性尿很黄是什么原因 辩题:历史是由英雄创造的