7 Papers & Radios | 纯注意力或许没那么有用；从量子场看深度学习

机器之心 & ArXiv Weekly Radiostation

参与：维度、楚航、罗若天

本周的重要论文包括谷歌关于永久视图生成问题的探索、DeepMind 提出的基于 Transformer 的自回归架构及复旦大学高分子科学系教授彭慧胜团队的一项研究成果等。

目录：

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image
Generating images with sparse representations
The Hintons in your Neural Network: a Quantum Field Theory View of Deep Learning
Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models
Attention is not all you need: pure attention loses rank doubly exponentially with depth
Large-area display textiles integrated with functional systems
Understanding WeChat User Preferences and 'Wow' Diffusion
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image

作者：Andrew Liu、Richard Tucker、Varun Jampani 等
论文链接：https://arxiv.org/pdf/2012.09855.pdf

摘要：在这篇论文中，谷歌研究院的几位研究者探讨了永久视图生成（prepetual view generation）问题。永久视图生成即给定单张图像在任意长相机轨迹下新视图的远距离生成。这是一项具有挑战性的任务，超出了当前视图生成方法的能力范畴，这些方法只适用于有限的视角范围，并且生成效果会在相机运动较强烈时迅速退化。此外，视频生成方法在生成长视频序列时能力受限，并且通常不受场景几何的影响。

谷歌研究者采用的新型混合方法在迭代渲染、优化和重复框架中集成了几何和图像合成功能，从而可以进行覆盖数百帧后较大距离的长距离生成。该方法不需要任何人工注释即可以从一组单眼视频序列中进行训练。此外，研究者提出了一个沿海自然场景的航拍数据集，并与最近的视图生成和条件视频生成基准进行了比较。结果表明，与现有方法相比，该方法可以覆盖较大相机轨迹的更长时间范围的合理场景。

整体方法流程，首先利用视差（disparity）将输入图像渲染至新的相机视图，接着对输入图像进行优化，合成并超分解缺失的内容。在输出 RGB 和几何图形后，重复该过程以实现永久视图生成。

渲染与优化步骤。

永久视图生成的效果展示，左侧为输入图像，右侧为输出的视频。

推荐：无限自然：从单张图像永久生成自然场景。

论文 2：Generating images with sparse representations

作者：Charlie Nash、Jacob Menick、Sander Dieleman 等
论文链接：https://arxiv.org/pdf/2103.03841v1.pdf

摘要：高维图像为基于似然的生成模型带来了架构和采样效率方面的挑战。VQ-VAE 等以往方法使用深度自编码器来获取紧凑的表征，这些深度自编码器作为似然模型的输入时更加实用。DeepMind 的研究者受到 JPEG 等常见图像压缩方法的启发提出了一种替代方法，将图像转化为量化的稀疏余弦变换（discrete cosine transform, DCT）块，这些块可以稀疏地表征为一系列 DCT 通道、空间位置和 DCT 系数三元组。

研究者提出了一种基于 Transformer 的自回归架构，该架构经过训练可以依次预测此类序列中下个元素的条件分布，并可以有效地放大至高分辨率图像。在多个图像数据集上的实验表明，该方法可以生成多样化的高质量图像，并且样本指标分数可与 SOTA 方法相当。此外，简单修改一下该方法还可以生成有效的图像着色和超分辨率模型。

输入图像被分割为 64 个像素块。

基于组块的训练和堆叠 Transformer 架构。

图（上）为图像着色效果。图（下）为 8 倍图像上采样效果。

推荐：本文提出的 DC-Transformer 架构不仅在样本质量和多样性基准上实现优秀性能，而且还轻松地支持图像着色和超分辨率上采样任务。

论文 3：The Hintons in your Neural Network: a Quantum Field Theory View of Deep Learning

作者：Roberto Bondesan、Max Welling
论文链接：https://arxiv.org/pdf/2103.04913.pdf

摘要：在本文中，高通 AI 研究院的两位学者提出了深度学习量子场理论形式化，其中输入信号在高斯态中进行编码。他们展示了将线性和非线性层表征为单一量子门，并将量子模型的本征激发解释为粒子，这种粒子被称为「Hintons」。除了为研究神经网络打开新视角和提供新技术之外，这种量子公式化非常适合光学量子计算，并提供了可以在光学量子计算设备上高效运行的神经网络量子变形。研究者探讨了适合经典模拟的量子变形模型的半经典极限。

神经网络分层。

量子光学硬件上模型实现的高级描述。

论文 4：Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

作者：Sam Bond-Taylor、Adam Leach、Yang Long 等
论文链接：https://arxiv.org/pdf/2103.04922.pdf

摘要：深度生成建模技术通过训练深度神经网络对训练样本的分布进行建模。研究中出现了各种互通的方法，并在运行时、多样性和架构限制方面进行权衡。具体而言，该领域涵盖了基于能量的模型、变分自编码器、生成对抗网络、自回归模型、归一化流等。在本文中，英国杜伦大学的研究者在单个一致性框架下阐述了这些方法，并通过对比解释了每种方法背后的理论，同时回顾了当前 SOTA 进展和实现。

不同深度生成模型在训练和测试速度、参数效率、样本质量、样本多样性以及缩放至高分辨率数据等方面的对比。

训练 GAN 的常见损失之间的对比。

隐式网络连续建模数据，并支持任意高分辨率。

推荐：深度生成建模方法综述。

论文 5：Attention is not all you need: pure attention loses rank doubly exponentially with depth

作者：Yihe Dong、Jean-Baptiste Cordonnier、Andreas Loukas
论文链接：https://arxiv.org/pdf/2103.03404v1.pdf

摘要：基于注意力的架构在机器学习领域已经非常普遍，但人们对其有效性原因的理解仍然有限。最近，来自谷歌和瑞士洛桑联邦理工学院（EPFL）的研究者提出了一种理解自注意力网络的新方式：将网络输出分解为一组较小的项，每个项包括一系列注意力头的跨层操作。基于该分解，研究者证明自注意力具备强大的「token uniformity」归纳偏置。也就是说，如果没有跳过连接（skip connection）或多层感知器（MLP），其输出将二重指数级收敛至秩 1 矩阵。另外，跳过连接和 MLP 还可以阻止输出的衰退。在不同 Transformer 变体上的实验证实了这一收敛现象。

具有 H 个头和 L 个层的深度自注意力网络（Self-Attention Network, SAN）中有两条路径。

他们将 SAN 分解为弱耦合路径的线性组合，每一条「路径」对应一个深度单头 SAN。

MLP 的作用。

推荐：纯注意力并没有那么有用，Transformer 凭借哪些组件屹立不倒？

论文 6：Large-area display textiles integrated with functional systems

作者：Xiang Shi、Yong Zuo、Peng Zhai 等
论文链接：https://www.nature.com/articles/s41586-021-03295-8

摘要：在刘慈欣的科幻小说《三体》中，主人公罗辑在冬眠了一百八十五年后来到了公元 2211 年。此时，人们的衣服已经能够根据穿着者情绪的变化，变幻不同的色彩、图案，每件衣服都相当于一块显示屏。虽然距离 2211 年还有接近两百年的时间，但书中描写的这一景象似乎已经离我们不远了。近日，《Nature》杂志刊载了复旦大学高分子科学系教授彭慧胜团队的一项研究成果——《大面积显示织物及其功能集成系统》。顾名思义，这种织物融合了显示器件的制备与织物编织过程，可以让衣服充当显示器使用，而且可以多次清洗、折叠，有很大的实用价值。审稿人认为，这项研究「创造了重要而有价值的新知识」。

发光经纱和导电纬纱。

充当显示屏的织物。

在处理器的帮助下，人类脑电波可被转换为可读信息，并显示在织物上。

推荐：每个人都是一个行走的显示屏，这并不是科幻小说里才有的场景。《三体》科幻场景在现实中出现。

论文 7：Understanding WeChat User Preferences and 'Wow' Diffusion

作者：Fanjin Zhang、Jie Tang、Xueyi Liu 等
论文链接：https://arxiv.org/pdf/2103.02930.pdf

摘要：微信是中国最大的社交即时通信平台，月活跃用户多达约 11 亿。「看一看」是微信新推出的推荐引擎，用户可以通过它阅读自己和朋友喜欢的文章：当微信用户打开一篇文章并阅读时，「点击」行为本身是私人的。但当用户点击了「在看」后，他 / 她的微信直接联系人就可以在「看一看」里发现这一行为 / 推荐。「看一看」的数据有什么用呢？

最近，来自清华大学的唐杰等人利用它来理解用户偏好和「在看」按钮，并得到了一些有趣的发现。例如，用户点击「在看」的概率与其活跃朋友构成的相连组件数量成负相关，但点击概率正好相反。该研究进一步探索如何基于用户的社会关系预测其点击行为和「在看」行为。为此，研究者提出了一个基于层级图表示学习的模型 DiffuseGNN，该模型能够捕捉到上述基于结构的社交观测结果。实验表明，该方法能够显著提升预测性能。

WeChat 中的「Top Stories」功能。

用户性别和朋友性别对用户活跃率的影响。

用户年龄与朋友年龄对用户活跃率的影响。

推荐：微信「看一看」反映出哪些用户行为模式？清华研究者发现了这些规律。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Improving Text-to-SQL with Schema Dependency Learning. (from Jian Sun)

2. Unsupervised Transfer Learning in Multilingual Neural Machine Translation with Cross-Lingual Word Embeddings. (from Alexander Waibel)

3. FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders. (from Lawrence Carin)

4. Enhanced Aspect-Based Sentiment Analysis Models with Progressive Self-supervised Attention Learning. (from Jiebo Luo)

5. Neural model robustness for skill routing in large-scale conversational AI systems: A design choice exploration. (from Young-Bum Kim)

6. IOT: Instance-wise Layer Reordering for Transformer Structures. (from Tie-Yan Liu)

7. Graph-Based Tri-Attention Network for Answer Ranking in CQA. (from Hongyuan Zha, Jianyong Wang)

8. Contrastive Semi-supervised Learning for ASR. (from Abdelrahman Mohamed)

9. MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization. (from Yang Liu)

10. Interpretable bias mitigation for textual data: Reducing gender bias in patient notes while maintaining classification performance. (from Peter Sheridan Dodds)

本周 10 篇 CV 精选论文是：

1. End-to-End Human Object Interaction Detection with HOI Transformer. (from Jian Sun)

2. Fast and Accurate Model Scaling. (from Piotr Dollár, Ross Girshick)

3. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction. (from Li Fei-Fei)

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction. (from Li Fei-Fei)

5. A Study of Face Obfuscation in ImageNet. (from Li Fei-Fei, Jia Deng, Olga Russakovsky)

6. Dynamical Pose Estimation. (from Jean-Jacques Slotine)

7. Sequential Learning on Liver Tumor Boundary Semantics and Prognostic Biomarker Mining. (from Alan L. Yuille)

8. Pixel-wise Anomaly Detection in Complex Driving Scenes. (from Roland Siegwart)

9. Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle Re-Identification. (from Lei Zhang)

10. Manifold Regularized Dynamic Network Pruning. (from Dacheng Tao)

本周 10 篇 ML 精选论文是：

1. Representation Matters: Assessing the Importance of Subgroup Allocations in Training Data. (from Michael I. Jordan)

2. hls4ml: An Open-Source Codesign Workflow to Empower Scientific Low-Power Machine Learning Devices. (from Maurizio Pierini, Zhenbin Wu)

3. Model Complexity of Deep Learning: A Survey. (from Jian Pei)

4. Variable-rate discrete representation learning. (from Sander Dieleman, Karen Simonyan)

5. Rissanen Data Analysis: Examining Dataset Characteristics via Description Length. (from Kyunghyun Cho)

6. Improving Context-Based Meta-Reinforcement Learning with Self-Supervised Trajectory Contrastive Learning. (from Kurt Keutzer, Yang Gao)

7. Spatial-Temporal Tensor Graph Convolutional Network for Traffic Prediction. (from Tong Zhang, Jian Yang)

8. Hard-label Manifolds: Unexpected Advantages of Query Efficiency for Finding On-manifold Adversarial Examples. (from Somesh Jha)

9. Pretrained Transformers as Universal Computation Engines. (from Pieter Abbeel)

10. Should Graph Neural Networks Use Features, Edges, Or Both?. (from Roger Wattenhofer)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。