引用次數最多的深度學習論文出自誰手？（無監督學習/生成模型篇）

引用次数最多的深度学习论文出自谁手？（无监督学习/生成模型篇）

雷锋网 AI 科技评论：我们通常都会学习前辈或大牛的经典作品，而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上，@Terryum 整理了一份精心编写的论文推荐列表，其中包含了在深度学习领域中引用次数最多的前 100 篇论文（自 2012 年起）。

有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。文章在精不在多，雷锋网提供的这些文章，都被认为是值得一读的优秀论文。囿于篇幅限制，雷锋网整理编译了无监督学习/生成模型的七篇论文，并增加了论文的概要，方便读者快速了解。

自然图像分布的建模在无监督学习中是一个里程碑式的难题，因为图像的高维度和高结构性，建模时需要考虑模型的可表达性，可控性和可扩展性，这使得很多模型在建立时以牺牲性能为代价，才能提取出有意义的图像表征。来自 Google 的 Aaron van den Oord，Nal Kalchbrenner 和 Koray Kavukcuoglu 在《Pixel Recurrent Neural Networks》一文中提出了一种能连续预测图像像素的二维 RNN 模型（PixelRNN）和全卷积网络 CNN 模型（PixelCNN）。作者对原像素的离散概率建模，并编码了完整的图像依赖关系。模型在 MNIST 和 CIFAR-10 上进行了测试，取得的对数似然函数值明显优于当下的技术发展水平。最后作者还给出了 PixelRNN 生成的一个样本定性评估。

[1] Pixel recurrent neural networks (2016)， A. Oord et al. [pdf]

来自 OpenAI 的多位技术专家联合发表了一篇名为《Improved Techniques for Training GANs》的论文，他们在论文中给出了训练 GAN 模型时应用的一些技巧。这些技巧的应用使得他们在 MNIST,CIFAR-10 和 SVHN 数据集的半监督分类问题中取得了目前技术发展的最高水平。视觉图灵测试证实了模型生成图像的高质量，连肉眼也无法分辨模型生成的 MNIST 样本和真实数据的区别，而模型生成的 CIFAR-10 样本，人类判断的错误率为 21.3%。模型生成的 ImageNet 样本更是达到了空前未有的分辨率。作者在文章提出，这些技巧使得模型能够学习 ImageNet 类的可辨别特征。

[2] Improved techniques for training GANs (2016)， T. Salimans et al. [pdf]

近几年在计算机视觉领域，卷积神经网络在有监督学习问题上得到了大量应用，而在无监督学习问题上却鲜少有人关注。Alec Radford，Luke Metz 和 Soumith Chintala 在论文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介绍了一类名为深度卷积生成式对抗网络（DCGAN）的 CNN 模型，并认为这种模型很适合无监督学习问题。通过在不同的图像数据集上训练，模型在生成器和判别器上，从物体物件到场景图像，都能学习到的一种层次的表征。最后，将学习到的特征应用到新任务中，证明了它们作为通用图像表征的适用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks (2015)， A. Radford et al. [pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自 Google 的 DeepMind 实验室，介绍了一种可应用于图像生成的 Deep Recurrent Attentive Writer（DRAW）神经网络模型，此模型能够生成高质量的自然图像，并提高了当前在 MNIST 数据集上生成模型表现的最好水平。此外，使用 SVHN 数据集训练的 DRAW 模型生成的图片，裸眼无法分辨其与真实数据的区别。

[4] DRAW: A recurrent neural network for image generation (2015)， K. Gregor et al. [pdf]

作为生成对抗网络（GAN）的开山之作，《Generative Adversarial Nets》论文初次提出了这种对抗过程估计生成模型的新框架，文中同时训练了两个模型，一个生成模型G（获取数据分布），一个判别模型D（估计样本来自训练数据集或者生成模型 G 的概率）。生成模型G的训练目标是最大化判别模型D犯错的概率。这个模型类似于两个人在玩极小极大算法的游戏。对于任意的函数G和D，存在唯一解，使得G恢复训练数据分布，而D处处为1/2。当G和D由多层感知器定义时，整个系统都可以用反向传播算法来训练。在训练和样本生成过程中不需要任何的马尔科夫链或者 unrolled approximate inference。实验通过对生成样本的定性和定量评估，证明了此框架的潜力。

[5] Generative adversarial nets (2014)， I. Goodfellow et al. [pdf]

在面对连续的潜变量，复杂的后验分布和数据集庞大的情况下，贝叶斯概率模型（directed probabilistic models）如何进行有效的推理和学习？Diederik P. Kingma 和 Max Welling 在《Auto-Encoding Variational Bayes》一文中提出了一种随机变分推理和学习算法，能够适应庞大的数据集和弱可微条件。论文提出了一种新的变分下界估计，可以直接应用 SGD 来优化和调整。另外，论文引入了自动编码变分贝叶斯（AEVB），这是针对有效推理和学习的一种高效算法。

[6] Auto-encoding variational Bayes (2013)， D. Kingma and M. Welling [pdf]

“有没有可能从无标签的图像数据中学习一个面部特征器？”《Building High-level Features Using Large Scale Unsupervised Learning》一文讨论了关于大规模无监督高层特征构建的问题。论文作者基于庞大的图像数据集，训练了一个 9 层的局部连接稀疏自编码网络模型，模型带有池化层和局部对比归一化层。通过模型并行化和异步 SGD 在 1000 个机器（16000 个核）上训练了 3 天，由此证明了从无标签图像数据中训练面部特征器是可行的。对照实验表明，训练出来的特征探测器在平移，缩放和平面外旋转上都体现了鲁棒性。除此之外，相同网络对于其他高层概念的探测表现的很灵敏，比如对猫脸、人类身体结构的探测。通过这些学习到的特征，训练的网络在识别 22000 类物体的 ImageNet 数据集上获得了 15.8% 的准确率，相对之前的最高水平有了 70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning (2013)， Q. Le et al. [pdf]

本文只介绍了列表中属于无监督学习/生成模型的七篇引用次数最多的论文，对于其他类别的论文，请参考作者其他编译文章或者原文链接：https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

雷锋网编译

引用次数最多的深度学习论文出自谁手？（无监督学习/生成模型篇）

相关推荐