打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
2020年AI和大数据领域会发生什么?14位科技公司领导这样说

编者按:

本文汇总了AI、数据分析、数据科学、机器学习行业中最具创新性的公司对2020年的预测。

预测集中在数据、公司、数据科学民主化、自动化机器学习、自然语言处理、云技术和数据操作等领域。

李浩源

Alluxio创始人兼首席技术官

一个适用于任何场景的机器学习框架

基于模型的机器学习已经走到了拐点,所有公司都在朝着模型训练方向迈进。虽然现在有几种比较流行的模型训练框架,但是还没有出现一种领先技术。

就像Apache Spark是数据转换领域的领头羊、Presto是交互查询行业的佼佼者一样,2020年会出现新的行业巨头,与PyTorch、Tensorflow竞争,一起主导更广泛的模型训练行业。

Kubernetes堆栈分析

虽然容器和Kubernetes在网络服务器、自包含数据库等无状态应用程序方面表现良好,但是在高级分析和AI方面,还没有被大规模使用。

2020年,AI和数据分析会在Kubernetes中变得更加主流。Kubernetes堆栈分析,即将数据从远程数据库转移到K8s集群,解决数据共享和弹性问题,使数据局部性更严格。

AI与分析团队将合并为新的基础数据组织

今天的AI与分析团队,就是昨天的Hadoop平台团队。随着时间推移,许多获取数据信息的新方法出现,AI是结构化数据分析的下一步。曾经的统计模型已经与计算机科学结合,变成了AI和机器学习。因此,数据、分析和AI团队需要合作,从他们使用的相同数据中获取价值。这将通过建立正确的数据栈来实现——在本地、云端、或两者上部署存储库,计算将成为规范。2020年,我们会看到更多公司围绕数据栈建立专门的团队。

Alan Jacobson

Alteryx首席数据和分析官

数据民主化崭露头角

2020年会是数据民主化的一年。数据分析从数据科学团队扩散至各行各业,并且趋于饱和状态,在过去几年的酝酿后,最终会爆发出来。这种自助服务式革命将改变公司与数据交互的方式,弥合具有业务知识的人和具有数据知识的人之间的差距。

通过简单好用的API和大量数据源的联合,自助服务分析将被用于数字转换领域最重要的过程之一“数据集成”。典型的数据工作人员开始从IT领域转向商业领域,导致做数据任务的人数量增多。因此,会有更多数据被处理、分析,最终对商业产生更重大、更积极的影响。

Wilson Pang

Appen首席技术官

自然语言处理的进步,使聊天机器人、在线问答客服等应用范围扩大

近两年,我们在自然语言处理方面有了新的突破。例如,BERT已经扩展了自然语言处理模型的功能。2020年,我们会看到更多的AI应用,如聊天机器人、在线问答、情感分析等等。

机器学习工具和智能运维会吸引更多公司

过去几年中,我们见证了机器学习和AI工具生态系统的成熟。明年,数据注释、模型训练、调试、模型服务、部署和生产监控等技术栈工具数量会大幅增加。为了管理这些工具,2020年会有更多公司转向智能运维。大公司的平台,如AWS、GCP和Microsoft Azure等,已经有了支持智能运维的好工具,但许多500强公司仍对部署到平台所在的云端持谨慎态度。

安全和道德问题推动了更多本地AI部署出现

随着越来越多的公司为他们的AI计划试验了更多数据,安全道德地使用AI会变得越来越重要。他们最担心的问题是数据泄露,特别是个人身份信息、新产品创意和专有信息的泄露。这些问题会导致更多支持AI创造的本地解决方案出现,包括数据注释解决方案和安全利用多样化人群数据的解决方案。确保数据安全只是合乎道德地使用AI的一部分举措,其他举措还包括关心人群健康、更审慎地考虑AI应用程序将如何影响使用者,或AI如何改善目标人群的生活。

Joe Caserta

Caserta创始人兼总裁

2019年,商业领袖们意识到只使用强大的分析平台来输出报告是不够的。2020年,数据分析人员、流程、技术等将走向成熟。各公司开始创新使用数据发现和商业智能的方式,并开始使用数据蜘蛛、机器人、AI和自然语言处理工具来查询数据,更快地获得结果。我们正准备迎接另一场数据革命,这场革命将彻底改变当前格局,颠覆现代数据工程。

Bob Moul

机器数据智能平台Circonus首席执行官

物联网数据的价值得到体现

通过大规模分析物联网数据做出的决策将带来巨大商机,有助于降低成本、减少停工时间、预防意外出现。

容器的可观察性

过去几年中,许多人开始尝试使用Kubernetes,学习概念验证。2020年,我们将会看到大量的部署在线化,与公司内部的DevOps功能紧密结合。需要注意的是,容器环境会产生大量数据记录,许多传统监控产品可能无法满足高基数需求。

物联网的发展需要一种创新性存储解决方案

据Gartner预测,2020年会有约200亿台物联网设备。随着物联网越来越先进,信息量越来越大,亟需更先进的管理方案来管理资源和工具。公司需要采用可扩展的存储解决方案,来适应数据的爆炸式增长,从而有望以超越现有技术的能力来容纳、处理数据,提供有价值的见解。

监控基础设施的复杂性增加

我们看到在蓝绿部署等DevOps实践推动下,数据记录数量大幅增加。一些有先见之明的公司采用这些做法并将它们与快速CI/CD工具结合起来,已经发布了十多个版本。未来将会对这些工具进一步大改,帮助支持这些用例。

Ryohei Fujimaki博士

dotData 首席执行官兼创始人

2019年,越来越多的公司意识到拥有自动化数据科学能力的重要性,动机器学习的吸引力越来越大。高度人工、耗时多的设计过程是自动机器学习成功必不可少的,但传统的自动机器学习却受到设计过程的阻碍。2019年,自动机器学习2.0崛起——这是自动机器学习体验的新迭代,用AI来使用关系数据集里的原始商业数据,自动创建、评估和评分,然后根据机器学习算法进行评估。

2020年,越来越多的供应商加入自动机器学习2.0的行列,预计这种数据科学全周期自动化的趋势将会加速。2020年的另一大趋势是机器学习管道的运营化和产品化。随着早期MLOps试验的实施,尽可能多的自动化操作将变得越来越重要。

Buno Pati

Infoworks首席执行官

使用数据的能力将加速整个经济体系的瓦解,比过去更快地分出胜负

未来十年,新挑战者将会以前所未有的速度崛起,现任的行业巨头也将以同样快的速度陨落。波士顿咨询公司(BCG)的研究显示,对于大公司而言,过去、未来多年的财务情况和竞争表现之间的关联性变弱。

目前,各行各业的数据科学家约80%的时间都花在了一些低价值的活动上,如获取数据、增量更新数据、组织管理数据、优化管道和向应用程序提交数据。他们只将20%的时间花在开发应用程序上,来推动业务进一步增长,增强竞争优势。那些通过新的自动化方法进行数据操作和编制的人,才是真正使用数据的人。他们将快速发展,因为他们能够将数据科学才能集中在创造商业价值上。数字转型将影响到经济领域的方方面面——科技、金融服务、零售或电子零售等意料之内的领域和农业、家居装修、公共部门等意料之外的领域。

随着未来十年隐私法的完善,消费者对“个人”数据的控制力大幅增强

《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)只是消费者数据保护控制的冰山一角。未来十年,随着政府和监管机构出台新的隐私法案,可以预见消费者对个人数据的控制力将大幅增强。假以时日,这些监管行动可能会帮助消费者完全掌握自己的个人数据,并有机会将数据货币化或直接用数据交换商品和服务。

未来十年,清洁能源运动将产生大量数据和新的用例分析

如今美国增长最快的行业是太阳能和风能。未来十年,这些行业的就业增长速度预计是其他行业的两倍(数据来源:美国国会加州第17选区议员Ro Khanna)。这些行业的技术进步降低了成本,引发了清洁能源运动,使全球可再生能源产能在过去九年里增加了三倍(数据来源:联合国环境规划署),超过了美国发电厂产能总和。未来十年,优化这些技术的使用方法,能最大程度地提高效益,但将产生大量数据和新的用例分析。管理和利用这些海量数据需要复杂的数据操作、编制系统,这远胜于过去的人工密集型操作方法,使数据科学家能够最大程度地发挥他们的才华——通过数据驱动的过程和见解,推动行业持续发展。

Izenda公司

如果2019年是机器年,那么2020年将是用户年。

2019年,AI和机器学习将在数据分析中大规模应用,产生比以往更快也更有价值的见解。下一步是使这一过程民主化——减轻高技能员工的数据负担,并赋能终端的非技术性用户同样的见解。既不需要额外雇佣分析师,也不需要对用户进行查询语言培训,用户可以像使用谷歌一样轻松浏览他们的数据。

数据科学的民主化

通过文本或语音处理自然语言,有助于培养“公民数据科学家”。虽然一些BI工具(商业智能分析工具)已经在平台上添加了自然语言处理功能,但是仍有一件事使它们无法被应用:价格。2020年,我们将开始看到价格低廉的SaaS BI工具,用途和功能与价值数万美元的工具类似。把机器学习能力和自助服务功能结合,放在一个价格低廉的平台上,使各规模的公司都有能力从数据中找到可行的见解。

Jeff Catlin

Lexalytics首席执行官

作为以文本为中心的AI/ML公司经营者,我认为2019年有两大趋势:BERT、XLNet等模型渗透到AI/ML领域,并且数据科学家在下半年有了重大改变——从自己完成所有工作到使用AI工具和平台解决问题。两个趋势之间是相关的:虽然BERT只使用一部分训练数据就能提供较为正确的结果,成为了行业规则制定者,但要精通它难度很大,因为平台包含了所有内置管道。

2020年,AI会进一步巩固它未来十年决定性技术的地位。供应商将从“不可思议”的角度,传达正确的信息,即AI可以帮助人类,让人类更快、更好地完成工作。此外,自然语言处理将在机器人流程自动化中占据更重要的地位,在这方面供应商会严重滞后。随着公司将更多流程自动化,自然语言处理供应商将提供本地+混合云选项、易于集成的API、快速可定制性的ROI——来满足用户的需求。

Bruce Tannenbaum

MathWorks产品管理高级经理

AI在工作场合的使用会更简单

随着AI相关产业的持续发展,该技术的影响将不再局限于数据科学领域,还会影响到医疗设备、汽车设计、工业生产安全等领域。

AI将被部署到低功耗、低成本的嵌入式设备上

明年,AI将被部署到低功耗、低成本设备上。AI通常使用浮点计算来获得更高的精准度和更简易的训练模型,但它无法在使用定点计算的低成本、低功耗设备上运行。如今软件工具的最新发展,支持不同层次定点计算的AI推理模型。

强化学习从游戏领域走向了现实工业应用

2020年,强化学习将从游戏领域转向现实世界的工业应用,特别是在自动驾驶、自主系统、控制设计、机器人等方面。强化学习被用于改进更大的系统,从而取得成功,例如改进自动驾驶系统中的驾驶员表现。

模拟解决了AI成功应用的主要障碍——缺乏高质量数据

一项面向数据师的调查显示,缺乏高质量数据是AI成功应用的最大障碍。每日正常的系统操作会产生大量可用数据。然而,在异常或临界失效条件中难以找到的数据通常更有价值。训练精确的AI模型需要大量这样的数据。2020年,模拟将有助于获得数据AI,一定程度上解决这一问题。

Matt Yonkovit

Percona首席执行官

更加自动化的数据库

在数据库领域,特别是云计算方面,存在着技术短缺问题。越来越多的公司希望使用它们的数据,却发现很难以希望的速度使用数据。选择数据库与应用程序一起运行的开发人员,希望数据库能够正常工作,并且不需要承担管理职责,无需成为数据库管理员就能实现。

过去,数据库供应商通过发布更多管理服务来解决问题,但这可能会将问题转移到其他方面。今年,各公司开始讨论如何管理自动化数据库,使其能实现自动化、自主修复。在Oracle的客户会议上,这是一个很大的主题,而Percona已经启动了自己的计划,使云数据库更加自动化。

明年,我们将提供更多自动化数据库服务,满足客户对速度的需求。然而,需要注意的是要如何设计和交付这个自动化服务。对大多数人有利的事情并不一定适合所有人。

Peter Bailis

Sisu首席执行官

如今是数据发展的黄金时代,我们通过与顾客的工作交流发现了2020年的三大趋势:新的分析堆栈兴起、数据分析从仪表盘变得更具诊断性、新职业运营分析师诞生。

一个新的、更灵活的分析堆栈兴起

从投资Redshift、Snowflake、BigQuery等云数据仓库开始,各公司还使用了现代数据管道和Fivetran、Stitch等数据仓库技术工具,将更多数据导入这些结构化存储解决方案。接下来,公司会重建诊断工具,来应对更丰富、更海量数据的涌入。

为了处理公司的几十个数据源和几乎实时的数据量,IT和数据团队将围绕四个重要方面重建分析基础结构:

● 云数据仓库,如Snowflake、BigQuery、Redshift、Azure等

● 数据管道工具,如Fivetran、Stitch等

● 灵活的仪表盘和报告工具,如Looker等

● 增强分析师和商业智能团队能力的诊断分析工具

自2020年开始,数据治理将重回前沿。随着数据分析、诊断平台的发展,从数据中得出的信息将在公司中更加无缝共享,因为数据治理工具将确保数据的保密性、使用合理性、完整性。2020年,公司在使用和理解分析方面会发生变化。

仪表盘诊断

与这种基础架构变化随之而来的是,董事会关心度量标准为什么在变化,这些变化对日常业务操作有什么影响。公司竞争力建立在对数据的有效利用基础之上,成功的公司将不再把他们的数据当作无用的档案,而是一种有竞争力的资产。

运营分析师崛起

数据分析的未来是运营分析师崛起,数据不再只属于数据科学家。公司中的每个人每天都会像数据分析师一样工作,出现针对特定用例的新技能和新工具。分析趋势、变化,并利用数据做出有影响的决定,不再仅仅局限于商业分析师或市场分析团队,而成为对新员工的规范和期望。

Kirit Basu

StreamSets产品战略副总裁

2020年,数据操作将获得认可

随着各公司未来的扩张、分析数据野心的增长,数据操作将被视为克服现代数据分析相关的速度、碎片化、变化速度等问题的解决方案。2019年,Gartner上“数据操作”搜索次数增长了两倍。此外,StreamSets发现有大量用户使用了数据操作功能。供应商带着数据操作产品正在进入这个领域,许多供应商通过收购小型公司来确立数据管理规则。最后,将会出现大量与数据操作有关的招聘信息。所有这些都指向对“数据操作”的新理解和对其命名的认可,使这种实践成为数据驱动组织的代名词。

Arvind Prabhakar

StreamSets联合创始人兼首席技术官

企业需要填补Apache Spark的技能缺口

2020年,会出现更多新技术,即使公司对Apache Spark没有深入的技术理解,也能解决核心业务问题,并从数据中提取见解。公司不需要专门的技能,就能使用Apache Spark等工具。这将使公司实现连续数据、监视,并能查看每个操作和应用对公司的影响。

来源:kdnuggets

翻译 | 田晓娜;校对 | 黄一成

版面 | 尹欢欢


互动话题:未来这些领域什么最重要?

每周评论区,被zan最多的评论者,将获得造就送出的书籍一本。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
回顾与展望丨数据科学 机器学习:2017年的主要发展和2018年的关键趋势
福布斯2019年AI技术发展预测,我们整理出35条核心发言
2017大数据版图
人工智能替代安全分析师的第一步已经迈出 - RSAC2017随笔之三
野蛮增长时代远去,增强分析开启大数据未来
数据分析技术工具发展现状及趋势
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服