2020年AI和大数据领域会发生什么？14位科技公司领导这样说

编者按：

本文汇总了AI、数据分析、数据科学、机器学习行业中最具创新性的公司对2020年的预测。

预测集中在数据、公司、数据科学民主化、自动化机器学习、自然语言处理、云技术和数据操作等领域。

李浩源

Alluxio创始人兼首席技术官

一个适用于任何场景的机器学习框架

基于模型的机器学习已经走到了拐点，所有公司都在朝着模型训练方向迈进。虽然现在有几种比较流行的模型训练框架，但是还没有出现一种领先技术。

就像Apache Spark是数据转换领域的领头羊、Presto是交互查询行业的佼佼者一样，2020年会出现新的行业巨头，与PyTorch、Tensorflow竞争，一起主导更广泛的模型训练行业。

Kubernetes堆栈分析

虽然容器和Kubernetes在网络服务器、自包含数据库等无状态应用程序方面表现良好，但是在高级分析和AI方面，还没有被大规模使用。

2020年，AI和数据分析会在Kubernetes中变得更加主流。Kubernetes堆栈分析，即将数据从远程数据库转移到K8s集群，解决数据共享和弹性问题，使数据局部性更严格。

AI与分析团队将合并为新的基础数据组织

今天的AI与分析团队，就是昨天的Hadoop平台团队。随着时间推移，许多获取数据信息的新方法出现，AI是结构化数据分析的下一步。曾经的统计模型已经与计算机科学结合，变成了AI和机器学习。因此，数据、分析和AI团队需要合作，从他们使用的相同数据中获取价值。这将通过建立正确的数据栈来实现——在本地、云端、或两者上部署存储库，计算将成为规范。2020年，我们会看到更多公司围绕数据栈建立专门的团队。

Alan Jacobson

Alteryx首席数据和分析官

数据民主化崭露头角

2020年会是数据民主化的一年。数据分析从数据科学团队扩散至各行各业，并且趋于饱和状态，在过去几年的酝酿后，最终会爆发出来。这种自助服务式革命将改变公司与数据交互的方式，弥合具有业务知识的人和具有数据知识的人之间的差距。

通过简单好用的API和大量数据源的联合，自助服务分析将被用于数字转换领域最重要的过程之一“数据集成”。典型的数据工作人员开始从IT领域转向商业领域，导致做数据任务的人数量增多。因此，会有更多数据被处理、分析，最终对商业产生更重大、更积极的影响。

Wilson Pang

Appen首席技术官

自然语言处理的进步，使聊天机器人、在线问答客服等应用范围扩大

近两年，我们在自然语言处理方面有了新的突破。例如，BERT已经扩展了自然语言处理模型的功能。2020年，我们会看到更多的AI应用，如聊天机器人、在线问答、情感分析等等。

机器学习工具和智能运维会吸引更多公司

过去几年中，我们见证了机器学习和AI工具生态系统的成熟。明年，数据注释、模型训练、调试、模型服务、部署和生产监控等技术栈工具数量会大幅增加。为了管理这些工具，2020年会有更多公司转向智能运维。大公司的平台，如AWS、GCP和Microsoft Azure等，已经有了支持智能运维的好工具，但许多500强公司仍对部署到平台所在的云端持谨慎态度。

安全和道德问题推动了更多本地AI部署出现

随着越来越多的公司为他们的AI计划试验了更多数据，安全道德地使用AI会变得越来越重要。他们最担心的问题是数据泄露，特别是个人身份信息、新产品创意和专有信息的泄露。这些问题会导致更多支持AI创造的本地解决方案出现，包括数据注释解决方案和安全利用多样化人群数据的解决方案。确保数据安全只是合乎道德地使用AI的一部分举措，其他举措还包括关心人群健康、更审慎地考虑AI应用程序将如何影响使用者，或AI如何改善目标人群的生活。

Joe Caserta

Caserta创始人兼总裁

2019年，商业领袖们意识到只使用强大的分析平台来输出报告是不够的。2020年，数据分析人员、流程、技术等将走向成熟。各公司开始创新使用数据发现和商业智能的方式，并开始使用数据蜘蛛、机器人、AI和自然语言处理工具来查询数据，更快地获得结果。我们正准备迎接另一场数据革命，这场革命将彻底改变当前格局，颠覆现代数据工程。

Bob Moul

机器数据智能平台Circonus首席执行官

物联网数据的价值得到体现

通过大规模分析物联网数据做出的决策将带来巨大商机，有助于降低成本、减少停工时间、预防意外出现。

容器的可观察性

过去几年中，许多人开始尝试使用Kubernetes，学习概念验证。2020年，我们将会看到大量的部署在线化，与公司内部的DevOps功能紧密结合。需要注意的是，容器环境会产生大量数据记录，许多传统监控产品可能无法满足高基数需求。

物联网的发展需要一种创新性存储解决方案

据Gartner预测，2020年会有约200亿台物联网设备。随着物联网越来越先进，信息量越来越大，亟需更先进的管理方案来管理资源和工具。公司需要采用可扩展的存储解决方案，来适应数据的爆炸式增长，从而有望以超越现有技术的能力来容纳、处理数据，提供有价值的见解。

监控基础设施的复杂性增加

我们看到在蓝绿部署等DevOps实践推动下，数据记录数量大幅增加。一些有先见之明的公司采用这些做法并将它们与快速CI/CD工具结合起来，已经发布了十多个版本。未来将会对这些工具进一步大改，帮助支持这些用例。

Ryohei Fujimaki博士

dotData 首席执行官兼创始人

2019年，越来越多的公司意识到拥有自动化数据科学能力的重要性，自动机器学习的吸引力越来越大。高度人工、耗时多的设计过程是自动机器学习成功必不可少的，但传统的自动机器学习却受到设计过程的阻碍。2019年，自动机器学习2.0崛起——这是自动机器学习体验的新迭代，用AI来使用关系数据集里的原始商业数据，自动创建、评估和评分，然后根据机器学习算法进行评估。

2020年，越来越多的供应商加入自动机器学习2.0的行列，预计这种数据科学全周期自动化的趋势将会加速。2020年的另一大趋势是机器学习管道的运营化和产品化。随着早期MLOps试验的实施，尽可能多的自动化操作将变得越来越重要。

Buno Pati

Infoworks首席执行官

使用数据的能力将加速整个经济体系的瓦解，比过去更快地分出胜负

未来十年，新挑战者将会以前所未有的速度崛起，现任的行业巨头也将以同样快的速度陨落。波士顿咨询公司（BCG）的研究显示，对于大公司而言，过去、未来多年的财务情况和竞争表现之间的关联性变弱。

目前，各行各业的数据科学家约80%的时间都花在了一些低价值的活动上，如获取数据、增量更新数据、组织管理数据、优化管道和向应用程序提交数据。他们只将20%的时间花在开发应用程序上，来推动业务进一步增长，增强竞争优势。那些通过新的自动化方法进行数据操作和编制的人，才是真正使用数据的人。他们将快速发展，因为他们能够将数据科学才能集中在创造商业价值上。数字转型将影响到经济领域的方方面面——科技、金融服务、零售或电子零售等意料之内的领域和农业、家居装修、公共部门等意料之外的领域。

随着未来十年隐私法的完善，消费者对“个人”数据的控制力大幅增强

《通用数据保护条例》（GDPR）、《加州消费者隐私法案》（CCPA）只是消费者数据保护控制的冰山一角。未来十年，随着政府和监管机构出台新的隐私法案，可以预见消费者对个人数据的控制力将大幅增强。假以时日，这些监管行动可能会帮助消费者完全掌握自己的个人数据，并有机会将数据货币化或直接用数据交换商品和服务。

未来十年，清洁能源运动将产生大量数据和新的用例分析

如今美国增长最快的行业是太阳能和风能。未来十年，这些行业的就业增长速度预计是其他行业的两倍（数据来源：美国国会加州第17选区议员Ro Khanna）。这些行业的技术进步降低了成本，引发了清洁能源运动，使全球可再生能源产能在过去九年里增加了三倍（数据来源：联合国环境规划署），超过了美国发电厂产能总和。未来十年，优化这些技术的使用方法，能最大程度地提高效益，但将产生大量数据和新的用例分析。管理和利用这些海量数据需要复杂的数据操作、编制系统，这远胜于过去的人工密集型操作方法，使数据科学家能够最大程度地发挥他们的才华——通过数据驱动的过程和见解，推动行业持续发展。

Izenda公司

如果2019年是机器年，那么2020年将是用户年。

2019年，AI和机器学习将在数据分析中大规模应用，产生比以往更快也更有价值的见解。下一步是使这一过程民主化——减轻高技能员工的数据负担，并赋能终端的非技术性用户同样的见解。既不需要额外雇佣分析师，也不需要对用户进行查询语言培训，用户可以像使用谷歌一样轻松浏览他们的数据。

数据科学的民主化

通过文本或语音处理自然语言，有助于培养“公民数据科学家”。虽然一些BI工具（商业智能分析工具）已经在平台上添加了自然语言处理功能，但是仍有一件事使它们无法被应用：价格。2020年，我们将开始看到价格低廉的SaaS BI工具，用途和功能与价值数万美元的工具类似。把机器学习能力和自助服务功能结合，放在一个价格低廉的平台上，使各规模的公司都有能力从数据中找到可行的见解。

Jeff Catlin

Lexalytics首席执行官

作为以文本为中心的AI/ML公司经营者，我认为2019年有两大趋势：BERT、XLNet等模型渗透到AI/ML领域，并且数据科学家在下半年有了重大改变——从自己完成所有工作到使用AI工具和平台解决问题。两个趋势之间是相关的：虽然BERT只使用一部分训练数据就能提供较为正确的结果，成为了行业规则制定者，但要精通它难度很大，因为平台包含了所有内置管道。

2020年，AI会进一步巩固它未来十年决定性技术的地位。供应商将从“不可思议”的角度，传达正确的信息，即AI可以帮助人类，让人类更快、更好地完成工作。此外，自然语言处理将在机器人流程自动化中占据更重要的地位，在这方面供应商会严重滞后。随着公司将更多流程自动化，自然语言处理供应商将提供本地+混合云选项、易于集成的API、快速可定制性的ROI——来满足用户的需求。

Bruce Tannenbaum

MathWorks产品管理高级经理

AI在工作场合的使用会更简单

随着AI相关产业的持续发展，该技术的影响将不再局限于数据科学领域，还会影响到医疗设备、汽车设计、工业生产安全等领域。

AI将被部署到低功耗、低成本的嵌入式设备上

明年，AI将被部署到低功耗、低成本设备上。AI通常使用浮点计算来获得更高的精准度和更简易的训练模型，但它无法在使用定点计算的低成本、低功耗设备上运行。如今软件工具的最新发展，支持不同层次定点计算的AI推理模型。

强化学习从游戏领域走向了现实工业应用

2020年，强化学习将从游戏领域转向现实世界的工业应用，特别是在自动驾驶、自主系统、控制设计、机器人等方面。强化学习被用于改进更大的系统，从而取得成功，例如改进自动驾驶系统中的驾驶员表现。

模拟解决了AI成功应用的主要障碍——缺乏高质量数据

一项面向数据师的调查显示，缺乏高质量数据是AI成功应用的最大障碍。每日正常的系统操作会产生大量可用数据。然而，在异常或临界失效条件中难以找到的数据通常更有价值。训练精确的AI模型需要大量这样的数据。2020年，模拟将有助于获得数据AI，一定程度上解决这一问题。

Matt Yonkovit

Percona首席执行官

更加自动化的数据库

在数据库领域，特别是云计算方面，存在着技术短缺问题。越来越多的公司希望使用它们的数据，却发现很难以希望的速度使用数据。选择数据库与应用程序一起运行的开发人员，希望数据库能够正常工作，并且不需要承担管理职责，无需成为数据库管理员就能实现。

过去，数据库供应商通过发布更多管理服务来解决问题，但这可能会将问题转移到其他方面。今年，各公司开始讨论如何管理自动化数据库，使其能实现自动化、自主修复。在Oracle的客户会议上，这是一个很大的主题，而Percona已经启动了自己的计划，使云数据库更加自动化。

明年，我们将提供更多自动化数据库服务，满足客户对速度的需求。然而，需要注意的是要如何设计和交付这个自动化服务。对大多数人有利的事情并不一定适合所有人。

Peter Bailis

Sisu首席执行官

如今是数据发展的黄金时代，我们通过与顾客的工作交流发现了2020年的三大趋势：新的分析堆栈兴起、数据分析从仪表盘变得更具诊断性、新职业运营分析师诞生。

一个新的、更灵活的分析堆栈兴起

从投资Redshift、Snowflake、BigQuery等云数据仓库开始，各公司还使用了现代数据管道和Fivetran、Stitch等数据仓库技术工具，将更多数据导入这些结构化存储解决方案。接下来，公司会重建诊断工具，来应对更丰富、更海量数据的涌入。

为了处理公司的几十个数据源和几乎实时的数据量，IT和数据团队将围绕四个重要方面重建分析基础结构:

● 云数据仓库，如Snowflake、BigQuery、Redshift、Azure等

● 数据管道工具，如Fivetran、Stitch等

● 灵活的仪表盘和报告工具，如Looker等

● 增强分析师和商业智能团队能力的诊断分析工具

自2020年开始，数据治理将重回前沿。随着数据分析、诊断平台的发展，从数据中得出的信息将在公司中更加无缝共享，因为数据治理工具将确保数据的保密性、使用合理性、完整性。2020年，公司在使用和理解分析方面会发生变化。

仪表盘诊断

与这种基础架构变化随之而来的是，董事会关心度量标准为什么在变化，这些变化对日常业务操作有什么影响。公司竞争力建立在对数据的有效利用基础之上，成功的公司将不再把他们的数据当作无用的档案，而是一种有竞争力的资产。

运营分析师崛起

数据分析的未来是运营分析师崛起，数据不再只属于数据科学家。公司中的每个人每天都会像数据分析师一样工作，出现针对特定用例的新技能和新工具。分析趋势、变化，并利用数据做出有影响的决定，不再仅仅局限于商业分析师或市场分析团队，而成为对新员工的规范和期望。

Kirit Basu

StreamSets产品战略副总裁

2020年，数据操作将获得认可

随着各公司未来的扩张、分析数据野心的增长，数据操作将被视为克服现代数据分析相关的速度、碎片化、变化速度等问题的解决方案。2019年，Gartner上“数据操作”搜索次数增长了两倍。此外，StreamSets发现有大量用户使用了数据操作功能。供应商带着数据操作产品正在进入这个领域，许多供应商通过收购小型公司来确立数据管理规则。最后，将会出现大量与数据操作有关的招聘信息。所有这些都指向对“数据操作”的新理解和对其命名的认可，使这种实践成为数据驱动组织的代名词。

Arvind Prabhakar

StreamSets联合创始人兼首席技术官

企业需要填补Apache Spark的技能缺口

2020年，会出现更多新技术，即使公司对Apache Spark没有深入的技术理解，也能解决核心业务问题，并从数据中提取见解。公司不需要专门的技能，就能使用Apache Spark等工具。这将使公司实现连续数据、监视，并能查看每个操作和应用对公司的影响。

来源：kdnuggets

翻译 | 田晓娜；校对 | 黄一成

版面 | 尹欢欢

互动话题：未来这些领域什么最重要？

每周评论区，被zan最多的评论者，将获得造就送出的书籍一本。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。