游客

引用次数最多的深度学习论文出自谁手?(无监督学习/生成模型篇)

游客 2017-04-10 15:03:54    201311 次浏览

引用次数最多的深度学习论文出自谁手?(无监督学习/生成模型篇)

雷锋网 AI 科技评论:我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上,@Terryum 整理了一份精心编写的论文推荐列表,其中包含了在深度学习领域中引用次数最多的前 100 篇论文(自 2012 年起)。

有一些深度学习论文,无论它们属于哪个应用领域,都值得仔细研习。文章在精不在多,雷锋网提供的这些文章,都被认为是值得一读的优秀论文。囿于篇幅限制,雷锋网整理编译了无监督学习/生成模型的七篇论文,并增加了论文的概要,方便读者快速了解。

自然图像分布的建模在无监督学习中是一个里程碑式的难题,因为图像的高维度和高结构性,建模时需要考虑模型的可表达性,可控性和可扩展性,这使得很多模型在建立时以牺牲性能为代价,才能提取出有意义的图像表征。来自 Google 的 Aaron van den Oord,Nal Kalchbrenner 和 Koray Kavukcuoglu 在《Pixel Recurrent Neural Networks》一文中提出了一种能连续预测图像像素的二维 RNN 模型(PixelRNN)和全卷积网络 CNN 模型(PixelCNN)。作者对原像素的离散概率建模,并编码了完整的图像依赖关系。模型在 MNIST 和 CIFAR-10 上进行了测试,取得的对数似然函数值明显优于当下的技术发展水平。最后作者还给出了 PixelRNN 生成的一个样本定性评估。

[1] Pixel recurrent neural networks (2016), A. Oord et al. [pdf]

来自 OpenAI 的多位技术专家联合发表了一篇名为《Improved Techniques for Training GANs》的论文,他们在论文中给出了训练 GAN 模型时应用的一些技巧。这些技巧的应用使得他们在 MNIST,CIFAR-10 和 SVHN 数据集的半监督分类问题中取得了目前技术发展的最高水平。视觉图灵测试证实了模型生成图像的高质量,连肉眼也无法分辨模型生成的 MNIST 样本和真实数据的区别,而模型生成的 CIFAR-10 样本,人类判断的错误率为 21.3%。模型生成的 ImageNet 样本更是达到了空前未有的分辨率。作者在文章提出,这些技巧使得模型能够学习 ImageNet 类的可辨别特征。

[2] Improved techniques for training GANs (2016), T. Salimans et al. [pdf]

近几年在计算机视觉领域,卷积神经网络在有监督学习问题上得到了大量应用,而在无监督学习问题上却鲜少有人关注。Alec Radford,Luke Metz 和 Soumith Chintala 在论文《Unsupervised representation learning with deep convolutional generative adversarial networks》中介绍了一类名为深度卷积生成式对抗网络(DCGAN)的 CNN 模型,并认为这种模型很适合无监督学习问题。通过在不同的图像数据集上训练,模型在生成器和判别器上,从物体物件到场景图像,都能学习到的一种层次的表征。最后,将学习到的特征应用到新任务中,证明了它们作为通用图像表征的适用性。

[3] Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al. [pdf]

《DRAW: A Recurrent Neural Network For Image Generation》一文出自 Google 的 DeepMind 实验室,介绍了一种可应用于图像生成的 Deep Recurrent Attentive Writer(DRAW)神经网络模型,此模型能够生成高质量的自然图像,并提高了当前在 MNIST 数据集上生成模型表现的最好水平。此外,使用 SVHN 数据集训练的 DRAW 模型生成的图片,裸眼无法分辨其与真实数据的区别。

[4] DRAW: A recurrent neural network for image generation (2015), K. Gregor et al. [pdf]

作为生成对抗网络(GAN)的开山之作,《Generative Adversarial Nets》论文初次提出了这种对抗过程估计生成模型的新框架,文中同时训练了两个模型,一个生成模型G(获取数据分布),一个判别模型D(估计样本来自训练数据集或者生成模型 G 的概率)。生成模型G的训练目标是最大化判别模型D犯错的概率。这个模型类似于两个人在玩极小极大算法的游戏。对于任意的函数G和D,存在唯一解,使得G恢复训练数据分布,而D处处为1/2。 当G和D由多层感知器定义时,整个系统都可以用反向传播算法来训练。在训练和样本生成过程中不需要任何的马尔科夫链或者 unrolled approximate inference。实验通过对生成样本的定性和定量评估,证明了此框架的潜力。

[5] Generative adversarial nets (2014), I. Goodfellow et al. [pdf]

在面对连续的潜变量,复杂的后验分布和数据集庞大的情况下,贝叶斯概率模型(directed probabilistic models)如何进行有效的推理和学习?Diederik P. Kingma 和 Max Welling 在《Auto-Encoding Variational Bayes》一文中提出了一种随机变分推理和学习算法,能够适应庞大的数据集和弱可微条件。论文提出了一种新的变分下界估计,可以直接应用 SGD 来优化和调整。另外,论文引入了自动编码变分贝叶斯(AEVB),这是针对有效推理和学习的一种高效算法。

 [6] Auto-encoding variational Bayes (2013), D. Kingma and M. Welling [pdf]

“有没有可能从无标签的图像数据中学习一个面部特征器?”《Building High-level Features Using Large Scale Unsupervised Learning》一文讨论了关于大规模无监督高层特征构建的问题。论文作者基于庞大的图像数据集,训练了一个 9 层的局部连接稀疏自编码网络模型,模型带有池化层和局部对比归一化层。通过模型并行化和异步 SGD 在 1000 个机器(16000 个核)上训练了 3 天,由此证明了从无标签图像数据中训练面部特征器是可行的。对照实验表明,训练出来的特征探测器在平移,缩放和平面外旋转上都体现了鲁棒性。除此之外,相同网络对于其他高层概念的探测表现的很灵敏,比如对猫脸、人类身体结构的探测。通过这些学习到的特征,训练的网络在识别 22000 类物体的 ImageNet 数据集上获得了 15.8% 的准确率,相对之前的最高水平有了 70% 的性能提升。

[7] Building high-level features using large scale unsupervised learning (2013), Q. Le et al. [pdf]

本文只介绍了列表中属于无监督学习/生成模型的七篇引用次数最多的论文,对于其他类别的论文,请参考作者其他编译文章或者原文链接:https://github.com/terryum/awesome-deep-learning-papers#unsupervised--generative-models

雷锋网编译

内容加载中