-
Attention Is All You Need
Ashish Vaswani, Noam Shazeer, Niki Parmar, et al.
2017
提出了革命性的Transformer架构,完全基于注意力机制,摒弃了循环神经网络和卷积神经网络。该论文开启了预训练语言模型的新时代,GPT、BERT等模型都基于此架构。理解这篇论文对掌握现代NLP技术至关重要。
-
ImageNet Classification with Deep Convolutional Neural Networks
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton
2012
AlexNet论文标志着深度学习在计算机视觉领域的突破。通过使用ReLU激活函数、Dropout正则化和GPU加速训练,该模型在ImageNet竞赛中大幅领先传统方法,证明了深度卷积网络的强大能力。
-
Deep Learning
Yann LeCun, Yoshua Bengio, Geoffrey Hinton
2015
深度学习领域的综述论文,由三位图灵奖得主联合撰写。系统阐述了深度学习的原理、方法和应用,为整个领域提供了清晰的发展框架和方向指引,是理解深度学习全貌的必读文献。
-
Generative Adversarial Networks
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, et al.
2014
提出了生成对抗网络(GAN)这一开创性框架,通过对抗训练让生成器和判别器相互博弈。GAN在图像生成、数据增强等领域展现出惊人效果,开创了生成模型的新纪元。
-
Adam: A Method for Stochastic Optimization
Diederik P. Kingma, Jimmy Ba
2014
提出了Adam优化算法,结合了动量法和RMSProp的优点,具有自适应学习率的特性。该算法因其高效稳定的性能成为深度学习中最广泛使用的优化器之一。
-
Residual Learning for Image Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
2016
提出了残差网络(ResNet),通过跳跃连接解决了深层网络训练困难的问题。ResNet在ImageNet竞赛中取得突破性成绩,使网络深度达到152层,证明了极深网络的可行性。
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
2018
提出了BERT双向编码器表示模型,通过掩码语言建模和下一句预测任务进行预训练。BERT在多项NLP基准测试中刷新记录,推动了预训练语言模型的快速发展。
-
Playing Atari with Deep Reinforcement Learning
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al.
2013
DQN论文首次将深度学习与强化学习结合,使用深度Q网络直接从像素输入学习玩Atari游戏。这项工作开启了深度强化学习的新篇章,为AlphaGo等项目奠定了基础。
-
Long Short-Term Memory
Sepp Hochreiter, Jürgen Schmidhuber
1997
提出了长短期记忆网络(LSTM),通过精心设计的门控机制解决了传统RNN的梯度消失问题。LSTM成为序列建模的经典架构,在自然语言处理和时间序列分析中广泛应用。
-
Support-Vector Networks
Corinna Cortes, Vladimir Vapnik
1995
支持向量机(SVM)的经典论文,提出了最大间隔分类器的概念。SVM在小样本学习和高维模式识别中表现出色,是机器学习的重要基础算法之一。
-
A Few Useful Things to Know About Machine Learning
Pedro Domingos
2012
机器学习实践经验的精华总结,指出了特征工程、模型选择、过拟合等关键问题。虽然篇幅不长,但包含了大量实用洞见,是理论与实践结合的重要指导文献。
-
Neural Turing Machines
Alex Graves, Greg Wayne, Ivo Danihelka
2014
提出了神经图灵机(NTM),将外部存储引入神经网络,使网络具备类似计算机的记忆和推理能力。这项工作探索了神经网络与符号推理的结合,启发了后续许多记忆增强网络的研究。
-
Dropout: A Simple Way to Prevent Neural Networks from Overfitting
Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, et al.
2014
提出了Dropout正则化技术,通过在训练时随机失活神经元来防止过拟合。这项简单而有效的方法已成为深度学习的标准配置,显著提升了模型的泛化能力。