45个问题测出你的深度学习基本功

原文：45 Questions to test a data scientist on basics of Deep Learning (along with solution)

作者：Faizan Shaikh

翻译：Kaiser，杨哲宁

前言

迟至2009年，深度学习还是一片有待拓荒的处女地，只有极少数人发现其中蕴藏的巨大潜力。而如今，深度学习已经广泛用于解决那些，曾经被认为不可能的任务。

语音识别，图像识别；数据集里找模式，照片当中寻分类；文能生成字符串，武可自动开汽车。所以有必要熟悉一些深度学习的基础概念。我们在社区(注：指Analytic Vidhya社区)中测试了深度学习的基础概念，共有1070人参与。

成绩分布（基于原站统计结果）

整体分布：

平均分：16.45

中位数：20

那么问题来了

Q1. 神经网络模型是由人类大脑启发而来。

神经网络由众多神经元构成，每个神经元读取并处理输入信号，再产生输出。

多项选择

关于神经元的叙述，哪些是正确的？

每个神经元可以有多个输入，和一个输出。

每个神经元可以有多个输出，和一个输入。

每个神经元可以有多个输入，和多个输出。

每个神经元可以有一个输入，和一个输出。

Q2. 下面是一个神经元的数学表示。

不同组件的意义为：

$x_1, x_2, ..., x_N$：神经元的输入。可以是输入层的实际观测，也可以是隐藏层的中间值。
$w_1, w_2, ..., w_N$：每个输入的权重。
$b_i$：偏移量，根据权重、附加在激励函数上的常数项。
$a$：神经元的激励函数，可表示为：

$$ a = f(\sum_{i=0}^{N}{w_i x_i}) $$

$y$：神经元输出。

单项选择

考虑以上定义，线性方程 (y = mx + c) 可以说是一种神经元吗？

是

否

无可奉告

一派胡言

Q3. 用一个神经元来拟合 AND 函数，下表即为 AND 函数：

X1	X2	X1 AND X2
0	0	0
0	1	0
1	0	0
1	1	1

神经元的激励函数记为：

$$ f(x) = 0 if x < 0;="" 1="" if="" x="" \geq="" 0="">

单项选择

权重和偏移分别是多少？（W1，W2和b怎样取值，我们的神经元才能拟合 AND 函数？）

Bias = -1.5, W1 = 1, W2 = 1

Bias = 1.5, W1 = 2, W2 = 2

Bias = -1, W1 = 1.5, W2 = 1.5

全都是泡沫

Q4. 多个神经元组成网络，以模拟 XNOR 函数的神经网络为例：

最后一个神经元接收了之前两个神经元的输入，其激励函数为：

$$ f(x) = 0 if x < 0;="" 1="" if="" x="" \geq="" 0="">

单项选择

假设 X1 = 0， X2 = 1，以上神经网络的输出是？

666

233

Q5. 在一个神经网络中，知道每个神经元的权重和偏移是最重要的。

单项选择

获知每个神经元权重和偏移的最佳方式是什么呢？

全都不对。

随机赋值，听天由命。

搜索每个可能的权重和偏移组合。

每次赋值之后检查与最佳值的误差，微调参数获得小幅提升，并持续迭代。

Q6. 梯度下降算法

计算预测值与真实值之间的误差
重复迭代直至得到网络权重的最佳值
向网络传入输入值，获得输出值
用随机值初始化权重和偏移
调整对误差有贡献的神经元参数，以减少误差

单项选择

梯度下降算法的步骤是？

1，2，3，4，5

4，3，1，5，2

5，2，3，1，4

3，2，1，5，4

Q7. 假设输入值为x, y, z分别为-2，5，-4，并有神经元q和f：

$$ q = x + y$$

$$ f = q * z$$

单项选择

F对x, y, z的梯度是多少？

(3, -4, -4)

(-3, 4, 4)

(4, 4, 3)

(-4, -4, 3)

Q8. 已知：

神经网络是对大脑的一种粗糙数学表示，由小单位——神经元组成。
每个神经元都有输入、处理函数和输出。
神经元组合形成网络，可以拟合任何函数。
为了得到最好的神经网络，需要梯度下降等方法来更新模型。

单项选择

以上为神经网络相关的描述，那什么时候神经网络才能成为一个“深度学习”模型呢？

当数据纬度更高的时候

当目标问题是图像识别的时候

山无棱，天地合

当你添加更多隐藏层，增加网络深度的时候。

Q9. 神经网络可以看作是简单的方程堆叠形成。

如果要用两个简单的输入h1和h2：

来浮现如下决策边界：

单项选择

最终的方程应该是？

(h1 AND NOT h2) OR (NOT h1 AND h2)

(h1 AND h2) OR (h1 OR h2)

(h1 OR NOT h2) AND (NOT h1 OR h2)

(NOT h1 AND NOT h2) OR (NOT h1 AND NOT h2)

Q10.

单项选择

Q10

“卷积神经网络可以对输入进行多种变换（旋转、缩放、平移等）”，这句话是否正确？

否

无可奉告

未知领域

是

Q11.

单项选择

Q11

下面哪种技术与神经网络中的Dropout相似？

Stacking

Bagging

Boosting

Mapping

Q12.

单项选择

Q12

下面哪一步使神经网络具有了非线性？

修正线性单元(Rectified Linear Unit)

全连接层(Fully Connected Layers)

随机梯度下降(Stochastic Gradient Descent)

卷积函数(Convlution function)

Q13. 在训练神经网络时，你可能会注意到，损失函数(loss)在最初的几个epochs时没有下降。

对原因的猜测：

学习率(learning rate)太低
正则参数太高
陷入局部最小值

单项选择

Q13

哪些原因是可能的呢？

所有

1，2

2，3

1，3

Q14.

单项选择

Q14

以下关于模型性能的叙述，哪个是正确的？（模型性能，指神经网络拟合复杂函数的能力）

性能随隐藏层数量提升

性能随学习率提升

全都不对

性能Dropout率提升

Q15.

单项选择

Q15

“在多层感知机(Multi Layer Perceptron)里增加隐藏层数量，分类误差总是下降”，这句话对吗？

错

就不告诉你

那玩意儿谁知道

对

Q16. 你正在搭建一个神经网络，既从前一层获取输入，也从自己获取输入。

单项选择

Q16

哪种神经网络架构具有反馈连接？

循环神经网络(Recurrent Neural Network)

支持向量机(Support Vector Machine)

卷积神经网络(Convolutional Neural Network)

受限玻尔兹曼机(Restricted Boltzmann Machine)

Q17. 感知机的正确顺序

随机初始化感知机权重
进入下一批数据集
如果预测与输出不符，则调整权重
对于采样输入，计算输出

单项选择

Q17

怎样的顺序是正确的？

1, 4, 3, 2

1, 4, 2, 3

1, 2, 3, 4

1, 3, 4, 2

Q18.

单项选择

Q18

通过调整参数，最小化代价函数，哪些技术是可以用上的？

穷举搜索(Exhaustive Search)

贝叶斯优化(Bayesian Optimization)

随机搜索(Random Search)

任意一个

Q19.

单项选择

Q19

一阶梯度下降对哪一图中的情形无效？

都不是

Q20. 下图显示了训练过的3层卷积神经网络准确度，与参数数量(特征核的数量)的关系。

单项选择

Q20

上图的趋势显示出当你增加一个神经网络的宽度时，他的准确率会逐渐升高直到一个特定阈值，之后则开始下降。

下面哪个是造成下降的可能原因？

都不对

当卷积核的数量增加时，神经网络的预测能力会下降

即使增加卷积核的数量，只有少部分的核会被用作预测

当卷积核的数量增加时，他们之间会出现相关效应(correlate)，造成了过拟合

Q21.

单项选择

Q21

假设我们有一个如下图所示的隐藏层，这个隐藏层在这个网络中起一个降维的作用。如果现在我们用另一种维度下降的方法，比如说主成分分析法(PCA)来替代这个隐藏层。

这两者的输出效果是一样的吗？

不好说

不知道

否

是

Q22.

单项选择

Q22

神经网络能组成函数(y=1/x)吗?

不知道

不行

看情况

可以

Q23.

单项选择

Q23

关于神经网络结构的权重共享现象，下面哪个选项是正确的？

卷积神经网络和循环神经网络都会出现

只有卷积神经网络(CNN)会出现

只有全连接神经网络会出现

只有循环神经网络(RNN)会出现

Q24.

单项选择

Q24

分批归一化(Batch Normalization)的好处都有啥？

它会返回权重的归一化平均值和标准差

该方法是一个非常有效的后向传播(BP)技巧

这些好处都没有

在将输入传递到下一层之前就会把它们全部归一化

Q25.

单项选择

Q25

一般情况下会用贝叶斯误差的标准来作为误差标准而不是完全的零误差，为什么？

输入和输出的映射系统可能是随机的

其他选项都是可能原因

输入的变量也许不包含输出变量的完整信息

有限的训练数据

Q26.

单项选择

Q26

输出层的神经元数应该与分类数匹配(分类数大于等于2)则是一个监督学习任务，对吗？

不是

是

不知道

不可知

Q27.

单项选择

Q27

在一个神经网络中，下面哪种方法可以用来处理过拟合？

分批归一化(Batch Normalization)

Dropout

都可以

正则化(regularization)

Q28.

单项选择

Q28

Y=ax^2+bx+c (二阶多项式)

这个方程能用一个仅含单隐藏层和线性阈值的神经网络来表示吗？

能

不好说

不能

不知道

Q29.

单项选择

Q29

神经网络中的死神经单元是什么？

无法对任何训练模式进行完整反馈的神经元

都不是

不能在训练过程中被其他附近神经元更新的神经元

会造成最大平方误差的神经元

Q30.

单项选择

Q30

下面哪个描述可以最好的描述early stopping?

训练网络知道误差函数出现一个局部最小值

在每一个训练epoch后在测试集上模拟网络，当归一化误差(generalization error)减小时停止训练

在权重值更新时上加一个动量项(momentum term)，使训练能够更快地收敛

一种更快的后向传播方式，像是'Quickprop'算法

Q31.

单项选择

Q31

如果我们用了一个过大的学习速率会发生什么？

不好说

都不对

神经网络不会收敛

神经网络会收敛

Q32.

单项选择

Q32

用来训练识别字母H和T的神经网络如下所示:

下面那些是可能的输出？

A和B都有可能，取决于神经网络的权重设置

Q33.

单项选择

Q33

假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。用一张全白的图片作为输入。输出结果为任何种类的物体的可能性都是一样的，对吗？

看情况

对的

不知道

不对

Q34.

单项选择

Q34

当在卷积神经网络中加入池化层(pooling layer)时，平移不变性会被保留，是吗？

看情况

不知道

否

是

Q35.

单项选择

Q35

当数据过大以至于无法在RAM中同时处理时，那种梯度下降方法更加有效？

随机梯度下降法(Stochastic Gradient Descent)

不知道

都不是

整批梯度下降法(Full Batch Gradient Descent)

Q36.

单项选择

Q36

下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。

下面哪个叙述是正确的？

第一隐藏层对应A，第二隐藏层对应B，第三隐藏层对应C，第四隐藏层对应D

第一隐藏层对应B，第二隐藏层对应D，第三隐藏层对应C，第四隐藏层对应A

第一隐藏层对应D，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应A

第一隐藏层对应A，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应D

Q37.

单项选择

Q37

对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，二是都设成0，下面哪个叙述是正确的？

没啥问题，神经网络会正常开始训练

其他选项都不对

神经网络不会开始训练，因为没有梯度改变

神经网络会开始训练，但是所有的神经元最后都会变成识别同样的东西

Q38.

单项选择

Q38

下图显示，当开始训练时，误差一直很高，这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。

为了避免这种情况，我们可以采取下面哪种策略？

其他都不对

一开始将学习速率减小10倍，然后用动量项(momentum)

增加参数数目，这样神经网络就不会卡在局部最优处

改变学习速率，比如一开始的几个训练周期不断更改学习速率

Q39.

单项选择

Q39

对于一个图像识别问题(在一张照片里找出一只猫)，下面哪种神经网络可以更好地解决这个问题？

感知机

卷积神经网络

循环神经网络

多层感知机

Q40.

单项选择

Q40

假设在训练中我们突然遇到了一个问题，在几次循环之后，误差瞬间降低

你认为数据有问题，于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。

你打算怎么做来处理这个问题？

对数据作主成分分析(PCA)和归一化

对数据取对数变化

都不对

对数据作归一化

Q41.

多项选择

Q41

下面那个决策边界是神经网络生成的？

Q42.

单项选择

Q42

在下图中，我们可以观察到误差出现了许多小的'涨落'。

这种情况我们应该担心吗？

不知道

不需要，只要在训练集和交叉验证集上有累积的下降就可以了

需要，这也许意味着神经网络的学习速率存在问题

不好说

Q43.

单项选择

Q43

在选择神经网络的深度时，下面那些参数需要考虑？

神经网络的类型(如MLP,CNN)
输入数据
计算能力(硬件和软件能力决定)
学习速率
映射的输出函数

1,3,4,5

都需要考虑

2,3,4,5

1,2,4,5

Q44.

单项选择

Q44

考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？

把除了最后一层外所有的层都冻住，重新训练最后一层

只对最后几层进行调参(fine tune)

对新数据重新训练整个模型

对每一层模型进行评估，选择其中的少数来用

Q45.

单项选择

Q45

增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？

没听说过

不知道

否

是

原文：45 Questions to test a data scientist on basics of Deep Learning (along with solution)

目前答题功能还比较简单，没有加入计时功能和正确率统计。大家可以分享分享自己一遍做完之后的得分。

如对题目有疑问，欢迎讨论。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。