原文:从语言模型到Seq2Seq:Transformer如戏,全靠Mask