目录
IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
在现代信息检索领域一直是两大学派之争的局面。一方面,经典思维流派是假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程。另一方面,现代思维流派则充分利用机器学习的优势,将文档和搜索词联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签。
本篇SIGIR2017的满分论文则首次提出将两方面流派的数据模型通过一种对抗训练的方式统一在一起,使得两方面的模型能够相互提高,最终使得检索到的文档更加精准。文章的实验分别在搜索、推荐系统以及问答系统三个应用场景中实现并验证了结果的有效性。
IR 系统,从数据库中检索相似的信息,应对的是离散的数据,而GAN一般在连续情况下容易work。常用的SGD在这里并不 work,作者采用RL的policy gradient作为替代。 IRGAN将generative retrieval model和discriminative retrieval model分别作为GAN的 generator和discriminator(文章里对生成模型和判别模型的提法跟我们通常所说的刚好相反)。所以,IRGAN训练的结果是两个IR系统:一个是生成模型,一个是判别模型。作者开源了代码,做了一些实验实验:web search,item recommendation,question answering,实验结果表明,IRGAN打败了多种strong baselines,带来显著的性能提升。作者认为,这种性能提升得益于GAN的对抗训练机制。两类IR模型统一到GAN框架下,虽然它们的性能不同,但是跟没有采用对抗训练的模型相比,它们之中至少有一个能够得到显著的性能提升。
学习一下:https://www.cnblogs.com/liaohuiqiang/p/9694277.html