从语言模型到Seq2Seq：Transformer如戏，全靠Mask--相关文章

原文：从语言模型到Seq2Seq：Transformer如戏，全靠Mask

微软提出第一个端到端的Video Captioning方法：SWIN BERT，涨点显著！

我爱计算机视觉阅34

一文读懂BERT(原理篇)

sidneyz1 阅114

关于BERT：你不知道的事

michael1314520 阅480 转5

【论文解读】UniLM:一种既能阅读又能自动生成的预训练模型

黄爸爸好阅4626 转19

Transformer细节整理

Clay*more 阅102

一文读懂深度学习：从神经元到BERT

立志德美阅398 转4

一文探索“预训练”的奥秘！

BERT模型详解

瓜爷耶阅3446 转12

BERT的通俗理解预训练模型微调

印度阿三17 阅3228 转6

聊聊恺明大神MAE的成功之处！

什么是XLNet中的双流自注意力

taotao_2016 阅156