打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
深度学习神经网络的数学原理可能是数据瓶颈

即使被称为“深度网络”的机器已经学会了和人交流,开汽车,拍摄视频,击败电子游戏和围棋冠军,做梦,画画和做出科学发现,人类确还不难解释所谓的“ 深度学习”的算法的原理。深度学习的算法并不具备可以被解释的数学原理,它只是数据科学家用于模拟大脑的架构。至于架构为什么可以工作,其实还没有人能够用数学或者逻辑原理来解释。

像大脑一样,深度神经网络有层层神经元(只不过是用数据节点模拟的)。 当数据节点被激发时,它会发送信号到它上层中连接的其它数据节点。 在深度学习期间,节点网络中的连接会根据被激发的频率被扩展加强或缩小减弱,如同人类的神经网络一般。比如输入的数据如果是一张狗的照片,每个像素可以看作是激发最底层的数据节点的信号,这些信号通过了数据节点网络不断向上层发射,最终获得了一个结论。而大量的狗的照片被输入以后,这些结论就会在高层数据节点上有一个相近的区域,而我们可以手动的把这个区域定为“狗”。从此,只要是狗的照片,经过了这个数据节点网络以后,就会在很大的概率上落入这个区域。这就是数据神经网络最基础的原理。但是这种能够产生和人类智慧类似(或者本质上一样)的数学原理究竟是什么呢?这是人工智能界的专家很想了解的,甚至我们也可以从中学会人类的大脑是用什么方式来理解现实。

上个月,一个有众多人工智能专家参加的在柏林举行的“有土”(YouTube)视频会议中,一个可能的答案诞生了。在谈话中, 耶路撒冷希伯来大学的计算机科学家和神经科学家纳夫塔里·提徐碧(Naftali Tishby)提供了一个新的用于解释深度学习原理的理论和相应的佐证。提徐碧认为深度学习神经网络学利用一种叫做 “信息瓶颈”的方式处理数字信息。这个理论是提徐碧和其它两个他的同事在1999年曾经提出过。这个理论是神经网络将信息如挤压一般通过一个个瓶颈,最终只保留一个和抽象概念最相关的特征。在提徐碧和他的学生罗伟德·斯瓦梓(Ravid Shwartz-Ziv)设计的实验中他们展示了这个过程是如何发生的 。

提徐碧指出,深度学习神经网络的核心在于“去处多余的信息”。从80年代开始,提徐碧就致力于语音识别技术,在研究过程中,他发现这个课题中的难题是:什么是词汇最显著的特征,人类是如何从不同的口音、噪音、声调中提取这些信息的?进一步的说,人类又是如何从信息的大海中提取我们选择保留的抽象概念的?

信息论的创始人克劳德·艾尔伍德·香农(Claude Elwood Shannon)在40年代把信息的基础设置为了0或1(是或非),这在微观的层面上似乎并没有显示出信息间的关联性。但是提徐碧说,“事实上信息就是有关联性的,而这种关联性也可以被数字化。”比如甲是一个数据集,这个数据集是由狗的照片的像素组成的,而乙是另外一个数据集,这个数据集是由“狗”这个字组成的。我们可以获取在从甲到乙的关联性数据,方法就是不断的简化甲,但是又不失去得出乙结论的可能性。换而言之,这是一个矩阵优化问题。

在2014年,物理学家大卫·斯瓦伯(David Schwab)和潘卡及·米塔(Pankaj Mehta)发现神经网络之父乔福利·何茵顿(Geoffrey Hinton)的深度信仰网络(deep belief net)在一些情况下和物理学中常用的重整化的工作方式一摸一样(重整化是量子场论中一套处理发散的方法)。比如,当他们用深度信仰网络来解决磁化模型的临界点问题时,深度信仰网络会和重整化算法作出相同的数据处理并且得到相同的结论。换句话说,在数据物理学获取关联度信息和在深度学习网络中获取关联度信息不单是类似的,事实上它们是同一种方法。

当然这个结论有一个很大的问题,那就是不是所有深度学习网络能够处理的数据都是可分形的(可分形的数据才可以重整化)。比如真实世界中,眼球是在脸上的,脸是在人身上的,而可分形的数据是则需要数据集合超数据集间有着绝对的相似性(比如雪花)。

受到了这个发现的启发,提徐碧和他的学生娜噶·扎斯拉瓦斯基(Noga Zaslavsky)提出了一个改进的信息瓶颈的假想:深度学习网络其实是一个压缩噪音数据的过程。随后提徐碧和斯瓦梓设计了一个实验,他们用一个小型的神经网络,来得出1或者0的答案(比如,有狗或没有狗),然后他们给了282个数据节点随机的链接强度,然后他们在每次输入新的数据集之后观察网络的变化,并且重复输入了3000个数据集。

被用于调整数据节点之间的连接的强弱的深度学习的底层算法是一种被称为“随机梯度下降”的算法。当一个新的(训练)数据集从深度学习神经网络的底部进入后,我们可以想象将网络上下颠倒(反正实际上网络也没有上下),那么这些数据就如同瀑布一样随机的向下流。当瀑布流到底部时汇聚的点就是数据信号在神经网络顶端的结论。而这个结论可以和一个是非命题做映射。比如你可以把顶部左半边定为是,右边定位非,如果你输入的数据集得出了错误的结论,你就可以再让它随机的做一次“瀑布下流”,直到结论正确为止,而这个正确的瀑布下流的渠道就回被加强,下一次继续这样下流的概率就会增加。

根据这个原理,提徐碧和斯瓦梓在他们的实验中跟踪了每个层面的数据节点数据的输入和输出。这样,就可以观察到数据神经网络形成逻辑和抽象能力的过程。他们随后发现,在层和层之间数据的变化符合瓶颈理论的假设。(这个假设的具体内容可以通过在个大付费的学术电子图书馆上搜索“Tishby, Pereira, Bialek”来获得)其中最为关键的一点是,数据节点层之间对于非核心信息的压缩率和提徐碧早年提出的数据瓶颈最高压缩率吻合。 此外提徐碧和斯瓦梓还有另外一个有趣的发现,即深度学习分为两个阶段:一是简短的“拟合”期。在此期间,数据神经网络的主要行为是将训练数据分类和打标。第二个阶段则非常漫长,其主要的行为是将数据进行压缩,而这个阶段也正是数据神经网络获取逻辑能力和抽象能力的时期 。

随着深度学习神经网络的数据节点层的随机梯度下降调整,首先,它存储的数据的总量保持大致和输入的总量一样或稍微增加,因为这时输入的数据对数据节点网络来说是全新的,而这种储存方式便于对数据进行新建分类和打标 。有的数据学家觉得这和人类接触新事物时的记忆方式是类似的。然后,深度学习神经网络的学习和储存方式发生了变化。它会开始抛弃一些旧的数据,并且只对和结论相关的有意义的数据进行保留,换而言之它逐渐开始关心结果。这是因为,在随机梯度下降的每次迭代中,不同训练数据中或多或少的相关性会逐渐加强部分数据节点的关联性 ,更重要的是,那些无关性较大的数据会教会数据节点网络如何判断无用的内容。比如,一些狗的照片可能在背景中有房子,而其他的照片没有。作为一个深度学习网络,通过输入照片,可能会在某个瞬间突然意识到了房屋和狗之间没有相关性,进而得出了判断狗和非狗的逻辑能力 。换一种说法就是,提徐碧和斯瓦梓的实验表明,数字神经网络在信息压缩阶段提高了泛化性能(也就是所谓的模糊识别,或者对于人类而言叫做“常识”),因此出现了逻辑能力。

当然,这不能说明信息瓶颈(或者叫做无关数据压缩)就是深度学习获得泛化性能的唯一途径 。一些数据学家认为提徐碧的想法是近期出现的关于深度学习的许多重要的理论之一。事实上某些深度学习神经网络似乎不需要一个漫长的压缩阶段(或者甚至没有)。相反,一种叫做“早期停止”的方式被广泛的应用,这样可以减少数据节点网络发现需求之外的相关性。比如我制作的一个叫做“脸战”的程序,其核心目的是为了判断用户的颜值,通过投票的方式获取的颜值,存在和颜值无关的可能性,比如女性用户在照片中的乳房的大小,或者男性用户是否在照片中露出了腹肌等。因此一个核心的判断必须在泛化过程前被提取出来,避免深度学习网络建立不必要的关联性,比如无论用户的照片显示了什么,只输入照片中脸这个部分的数据集(像素)。那么在这种并没有太多“无关信息”的情况下,深度学习网络又是靠什么来得出结论的呢?


人类的大脑是如何从我们日常的感官中筛选信号并将其提升到自我意识水平的谜团驱使了数据学的先驱者对深度学习神经网络的兴趣,他们希望模仿大脑的设计来逆向学习它的运行规则。然而今天人工智能从业者已经不是很关心这个最初的愿望,而是更关心如何应用这个没有被完全解释的(甚至是根本没有被解释的)现象。现在人类已经有建立超越人脑神经元的数据节点的能力,并且在不断追求更快更大的数字神经网络,但是这是否符合自然生物学上的合理性呢? 我们是否应该在深度神经网络进一步发展前花更大的精力去探索一下它的原理呢?

很明显的,人类的学习能力和深度学习数据神经网络并不完全一样。比如,一个刚刚开始学习识字的儿童并不需要看过成千上万个同样的字才能理解它和其它字之间的区别。很多情况下,人类只需要看过一次,就能领会这个字和其它文字的区别。同样的,你不需要看见人数百次才能区分这个是人,你甚至可以看一次就知道他或她是人,而且你还可以把他或她从其它人直接区分出来。当然了,这对深度学习网络来说不是完全不可能的。一种方式是将事物进行降级分解,比如把人的五官从面部分类出来,比对其和其它五官的吻合度,然后再对整体的结构和比例进行匹配。这可以大幅降低深度学习网络的训练时间。但是即便如此,也难以做到类似人类的判断能力。

未来优秀的人工智能学家必然是能够在人脑科学和数字科学这两个学界往来的学者。提徐碧的信息瓶颈理论,无论是否能够解释这其中任何一个领域的现象,对推动学术界是起到了巨大帮助的 。提徐碧觉得深度学习网络最适合解决在输入的信号中消除噪音的问题,解决模拟自然视觉,语音识别等问题。这些也正是我们的大脑擅长应付的。同时,人类的神经网络和人造数字神经网络都会遇到结论不确定的情况,从而使微小的差异无法消除。例如,对一个变量的变化非常敏感的逻辑问题并不适合深度学习来解决,比如离散问题和加密问题等。据一个例子,我觉得深度学习不会更像很多电影或者小说里说的那样成为超级人工智能黑客。破解密码和寻找系统漏洞并不是深度学习擅长做的事情(也不是人类擅长做的事情)。

最后,深度学习的泛化过程是通过目睹了无数信息以后留下最关键的几个亮点,而其它的信息如流水一般不再有。这难道不是一种很有诗意的选择吗?我们人类在人群中寻找熟悉的面孔,在混乱世界中寻找宁静,或许,只有忘却那些不重要的琐事我们才能发现生活中最核心的美。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
新的理论将揭开机器学习的神秘面纱?
图神经网络中的图卷积操作原理及其优化方法
人工智能革命:历史、当下与未来
人工智能/机器学习/深度学习/神经网络:有什么区别?
是什么让深度学习能够深入世界并改变世界?
深度证据回归:当AI不再值得信任时,我们能提前得到预警
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服