Intel Fellow：人工智能与高性能计算将走向融合

作为Intel公司的Fellow，Alan Gara表示随着神经形态计算、量子计算等新型计算、存储、通信技术快速推动百亿亿次计算成为现实，人工智能与高性能计算将走向融合。

英特尔数据中心事业部的Fellow艾伦·加拉（Al Gara）表示，随着我们使用新的计算、存储和通信技术以及神经形态芯片和量子计算芯片向百亿亿级未来过渡，高性能计算和人工智能之间的关联将会越来越紧密。加拉认为，“人工智能（AI）、数据分析和传统仿真的融合将带来具有更广泛功能和可配置性以及交叉授粉（cross pollination）特质的系统。”

加拉为这一高性能计算（HPC）和人工智能交织的未来设定了十分具有挑战性的硬件目标。在这一未来中，硬件会提供百亿亿次以上的双精度使用性能，且会在减少精度运算的情况下提供更高的性能。他相信，如果用户将重点放在单位内存容量的计算性能上，那么用户将跨各种架构获得丰厚回报，并为系统软件和用户应用程序提供通过百亿亿级及更高级别计算保持指数级性能增长的机会。

1.“三大支柱”的统一

加拉提出的愿景基于高性能计算“三大支柱”的统一：人工智能（AI）和机器学习（ML）；数据分析和大数据；以及高性能计算（HPC）。这意味着未来的用户会使用互相利用并通过内存交互的模型进行编程。

具体而言，英特尔正在努力研究高度可配置的百亿亿级系统，该系统可支持到全新技术的升级，其中包括可扩展处理器、加速器、神经网络处理器、神经形态芯片、FPGA、英特尔持久内存、3D NAND和自定义硬件。

加拉的愿景有一个共同特征，那就是同一架构会通过配置涵盖高性能计算、人工智能和数据分析，这意味着这些不同的硬件后端需要拥有一致的软件环境来处理高性能计算和人工智能工作负载。

目前，加拉的愿景有一个非常实际的实例，即在TensorFlow等热门机器学习软件包中使用Intel nGraphT库。从本质上来说，Intel nGraph库被用作中间语言（类似于LLVM），可在从CPU到FPGA、专用神经网络处理器等各种硬件平台上提供优化的性能。

英特尔人工智能产品事业部首席技术官办公室的杰森·奈特（Jason Knight）如是写道，“我们将Intel nGraph库视为由流行深度学习框架的优化通道（optimization pass）、硬件后端和前端连接器构成的生态系统的开端。”

整体而言，加拉指出“高性能计算实际上是许多架构的发源地…和测试环境”，因为高性能计算编程人员、研究人员和领域科学家通过探索架构空间描绘出了如下性能格局：

数据级别并行（从细粒度到粗粒度）
节能加速器（计算密度和能源效率通常是相关的）
在所有级别利用可预测的执行（缓存到粗粒度）
集成的固定功能数据流加速器
通用数据流加速器

2.技术机遇

高性能计算和人工智能科学家将有机会获得并能够利用许多新网络、存储和计算架构的性能功能。

其中，高性能计算是光学技术的重大驱动因素，这是因为光纤是超级计算机最具挑战性且成本最高昂的要素之一。出于此原因，加拉认为，随着我们过渡到线性设备和环形设备以及使用不同波长的光进行通信的光学设备，硅基光子学将产生颠覆性影响，集成硅基设备或光学设备的能力将带来巨大的经济和性能优势，包括增长空间（从技术角度而言）。

新的非易失性存储技术（例如英特尔持久内存）正在模糊内存和存储之间的界线。加拉描述了一种用于百亿亿级超级计算机的新存储堆栈，当然，此类堆栈也可在通用计算集群中实施。

加拉评论道，关键在于此类堆栈是为了使用NVM存储而重新设计的。这会带来与任意对齐和事务大小相关的高吞吐IO操作，因为应用程序可通过新的用户空间NVMe/pmem软件堆栈执行超细粒度IO。在系统级别，这意味着用户将能够在软件托管的自我修复型冗余环境中使用可扩展的通信和IO操作跨同源、无共享服务器管理大规模分布式NVM存储。换而言之，高性能、大容量的可扩展存储能够支持大数据和核心内算法以及针对稀疏及非结构化数据集的数据分析。

科研人员正在利用内存性能和容量方面的进步来改变我们处理人工智能和高性能计算问题的方法。美国犹他大学（University of Uta）和沙特阿拉伯阿卜杜拉国王科技大学（King Abdullah University of Science and Technology，KAUST）都在做这方面的工作。

例如，犹他大学的科研人员强调了对数运行时算法在Ospray可视化软件包中的重要性。对数运行时算法对于大型可视化和百亿亿级计算而言十分重要。运行时基本上随数据规模的增长而缓慢增长。但即使数据规模呈数量级增长，运行时的增长仍然会十分缓慢，因而对数增长十分重要。否则，运行时增长会阻止计算在合理的时间内完成，从而让大内存容量计算机的优势消失殆尽。

因此，提供低延迟数据访问的大内存容量计算节点成为能够在博弈中与大规模并行加速器竞争并获胜的使能技术。犹他大学的研究表明，相较拥有128个节点的GPU集群而言，单一大内存（三万亿字节）工作站可提供具有竞争力，甚至更加优秀的交互式渲染性能。犹他大学的研究小组还在使用P-k-d树和其他快速核心内方法探索原位可视化（in-situ visualization），以展示大型“直接”核心内技术是传统高性能计算可视化方法的可行替代方案。

在第二个示例中，KAUST一直在与英特尔和东京工业大学（Tokyo Institute of Technology）协作，增强用于多核心（multi-core）和许多核心（many-core）处理器的数值工具生态系统。想象一下使用CPU技术以在数学和计算方面都高效的方式处理十亿乘以十亿的超大规模矩阵会是什么样子。

非高性能计算科学家十分认可线性代数和快速多级方法（Fast Multi-pole Methods，FMM）中这些贡献的重要性，因为数值线性代数是工程、物理、数据科学和机器学习领域中几乎所有应用的根源所在。FMM方法已被列为二十世纪十大算法之一。

结果表明，相较使用目前在相同硬件上运行的英特尔数学核心函数库（Intel Math Kernel Library，Intel MKL）等经过高度优化的库，高性能计算科学家现在能够以更快的速度解决更大的密集线性代数问题和FMM相关数值问题。这些方法已在名为ExaFMM和HiCMA的经过高度优化的库中提供。

3.展望未来：神经形态计算和量子计算

代号为“Loihi”的新神经形态测试芯片可能能够代表人工智能领域的相变，因为它们能够“自学”。目前，数据科学家花费了大量时间处理相关数据，以创建用于训练神经网络解决复杂问题的训练数据集。神经形态芯片让人们不再需要创建训练数据集（例如，整个过程无人类的干涉）。相反，人类需要在神经形态硬件发现解决方案后验证其准确性。

简单说来，神经形态计算利用与机器学习和深度学习领域中使用的传统神经网络完全不同的计算模型。此模型可更准确地模仿生物大脑的运行，因此，神经形态芯片只需通过观察其所处的环境就能以事件驱动的方式“学习”。此外，它们的运行方式非常节能。时间将告诉我们这是否能够以及何时能够带来优势。好消息是，神经形态硬件现在已经进入市场。

加拉表示，目标在于创建在当前架构下提供100倍以上能源效率的可编程架构，从而更加高效地解决人工智能疑难问题。他提供了稀疏编码、字典学习、约束补偿（constraint satisfaction）、模式匹配以及动态学习和适应等示例。

最后，加拉介绍了量子计算领域取得的进步，这是通过与荷兰代尔夫特理工大学（Delft University）协作实现的。这项协作旨在生成更好的Qubit（量子比特）、增强Qubit之间的关联以及开发可扩展的IO。量子计算是非直观的，因为大多数人无法直观地理解纠缠的概念或同时处于多个状态的物质。但是，网络上仍然有加拿大滑铁卢大学（University of Waterloo）的《量子计算101》（Quantum Computing 101）等优秀资源，可帮助人们了解这一快速进步的技术。如果成为现实，这项技术将永远改变我们的计算世界。

量子计算使得解决目前对于普通计算机而言棘手的问题成为可能。加拉重点介绍了英特尔的量子计算工作目前在量子化学、微型架构和算法协同设计，以及后量子安全密码方面的应用。

4.总结

现在，新的计算、存储和制造技术不断涌现，这让人工智能和高性能计算社区不得不重新思考其传统方法，以便能够使用这些比以往性能更高的可扩展且可配置的架构。艾伦·加拉指出，技术正在推动“三大支柱”的统一，这也会反过来让人工智能和数据中心内高性能计算的未来无法区分开来。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。