打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
收藏:盘点机器学习的顶级数据资源TOP 8,如何做好深度学习,少些弯路少些坑?

公众号后台回复:管理1904,免费下载本月推荐精品管理类图书

公众号后台回复:人文历史1904,免费下载本月推荐精品人文历史类图书

加入“ICT销售和大客户联盟”(微信ID:ICT-League),寻找志同道合的小伙伴!

您的关注就是我们最大的动力,这里有大量企业家高净值粉丝,每天分享最新商业资讯、趋势、深度好文、把握财经动态。喜欢学习和阅读的朋友请关注我,文章每天都会更新,欢迎转发阅读!

前言

      过去的一年做了几个项目都是关于人工智能的,典型的几个项目都包含了音视频的人工智能识别和分析,从而为决策提供依据。

      典型的项目如:

      1、证券和保险行业用于合规的“个体实体行为管理和分析”,该项目用于实时鉴别内部员工的非合规的行为,包括语音、通信、即时通信、邮件、电脑端的全部操作行为,并实时的对非合规行为报警,并提供各类行为的分析、统计,查询等等。

      2、公共事业的“呼叫中心的智能语音互动”,该项目是对呼叫中心的语音呼入、即时通信等等多渠道的沟通,采用人工智能的方法,替代大量的人工坐席,帮助解决保修、咨询、工单派发......等等。

      3、公检法体系的“智慧执法办案中心”,系统采用先进的规范化管理体系,系统与警务综合应用系统相互补充,将公安机关执法管理与公安部下发相关政策要求相结合,打造规范执法过程、可追踪查询执法环节和执法信息,案件审理全程闭环、全程监督的执法办案新模式。最终实现执法活动有据可依,执法监督有据可查,执法效率有显著提升,执法公信力和满意度有明显提高。

      2018年,还有其他的好多关于大数据和人工智能的项目实施完成,在此不一一描述。

      写出这些项目的简单介绍,其实就是想总结一下关于“人工智能”的一些想法,给自己一个总结,同时督促自己更勤勉的去学习,给自己一些动力。

      哈哈,这也应了机器学习的一个方面了,算是一种“有监督学习”吧。

     额,一不小心就提到了“有监督学习”。刚刚开始接触人工智能/机器学习的人会经常看到这个词。

      本文不是写给技术老炮的,因为老炮会觉得这些太基本,根本不值得一提。

     但是,但多数销售和菜鸟而言,接触到人工智能时,突然发现扑面而来的都是各种“高大上”的新名词,学习的曲线很陡,然后老炮们随口说出来的话都让自己犯鸡头晕。

       所以本文是给菜鸟和很多的销售同行们写的。

      有不恰的地方,望不吝赐教。

01 

人工智能的发展

      人类一直试图让机器具有智能,也就是人工智能。

      从上世纪50年代开始,人工智能发展到今天的红红火火,经历了三个阶段:

       l  推理期

       l  知识期

       l  机器学习期

      推理期:通过赋予机器逻辑推理能力使机器获得智能,当时,程序能证明一些著名的数学定理,但因为机器缺乏知识,远不能实现真正的智能。

      知识期:将人类的知识总结出来教给机器,使机器获得智能。记得当时有大量的专家系统问世,在很多领域的确帮助人类取得大量成果,但人类知识量巨大,故出现“知识工程瓶颈”。

      在这时期的机器都是按照设定的规则和总结的知识运作,无法超越它的创造者,另外人力成本也太高。

      这时候,傻子都会想到,要是机器能够自我学习的话?那么,上诉的问题不就迎刃而解了吗?

      所以,机器学习就应运而生了。人工智能开始进入“机器学习时期”。

      80年代,IT和通信网络开始普及,对机器学习的影响就是“连接主义”思维,于是出现了用于机器学习的“感知机”和“神经网络”;

      90年代,睡着生产力的提高,互联网普及,全球盛行“统计学习方法”,最有影响力的应当是“支持向量机”;

      进入新世纪后,大数据开始深入人心,随着数据量和计算能力的不断提升,摩尔定律促使计算资源越来越便宜,深度神经网络被提出,连接主义卷土从来,以深度学习(Deep Learning)为基础的诸多AI应用逐渐成熟。

02 

人工智能,机器学习

神经网络,深度学习

      2018年开始,随着公司的产品经历了无数次的迭代后,市场也开始被许多的头部用户认可。

      公司的销售们开始大规模的接触人工智能的内容,然后,好多的销售开始反应,这坑太太太太大了!人工智能,机器学习,深度学习,还有神经网络等等的不同的术语,每一个都很高冷,以致于很多人都傻傻的分不清到底它们之间是什么样的关系。

      在与客户沟通的时候,也常常被客户导入到了:这些东东,是一个东西的不同表达而已。然后回来补课,学习!

      经历了2018将近一年的时间,并且在成功的交付了若干个项目之后,我们的销售才逐渐窄心里和项目规划时有了一个大体的框架模型。

      简单来说,人工智能是追求目标,机器学习是实现手段,深度学习是其中一种方法!

1、机器学习

人工智能的核心可以说就是机器学习:

机器学习的定义是“Machine learning is the idea that there are generic algorithms that can tell you something interesting about a set of data without you having to write any custom code specific to the problem. Instead of writing code, you feed data to the generic algorithm and it builds its own logic based on the data.”。

没办法,找来找去,还是觉得英文的定义跟清楚,只好还是用原文了。别扁我啊。

原文的关键词是:不需要写专门的业务逻辑代码,而是通过输入大量的数据给机器,由机器通过一个通用的机制来建立它自己的业务逻辑。

这就是说机器“自我学习”了业务逻辑。

然后,这种学习后的逻辑,可以用来处理新的数据。

这是不是跟我们人类的学习过程很类似?简单的说,机器学习的过程可以表述如下。

基本上,每一个关于人工智能的项目都会设计到这几个要素的。否则,人工智能就是“大量的人工”+“一点点的归纳“。

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类。

机器学习可以看作是寻找一个“函数”,输入样本数据,输出期望的结果。

不过,这个“函数”过于复杂,以至于不太方便形式化表达。

机器学习的目标是使学到的“函数”很好地适用于“新业务样本”,而不仅仅是仅仅在“训练的业务样本”上表现很好。

学到的“函数”要有适用“新业务样本”的能力,这种能力就叫做“泛化能力”。

机器学习是思想手段,主要就分为“有监督学习”和“无监督学习”。总体来说这两类学习手段,当然还有衍生的棒监督学习和主动学习。

通俗/简单点来说,有监督学习就是训练用历史数据是既有问题又有答案,而无监督学习就是训练用历史数据是只有问题没有答案。正式的说法一般是把答案称之为标签label。

在无监督学习中,主要是发现数据中未知的结构或者是趋势。虽然原数据不含任何的标签,但我们希望可以对数据进行整合(分组或者聚类),或是简化数据(降维、移除不必要的变量或者检测异常值)。因此无监督算法主要的分类包含:- 聚类算法(代表:K均值聚类,系统聚类) - 降维算法 (代表:主成份分析PCA,线性判断分析LDA)

我们不在这里细数这些概念,网上多的是。

如何选择有监督学习和无监督学习呢?

了解以上对比后,我们在做数据分析时,就可以高效地做选择了。

图3 有/无监督学习的选择

首先,我们看是否有训练数据,也即是否有标签。没有标签的直接选择无监督。事实上,对数据了解得越充分,模型的建立就会越准确,学习需要的时间就会越短。

什么是深度学习?

深度学习的概念并不新颖。它已经存在好几年了。但伴随着现有的所有的炒作,深度的学习越来越受到重视。我们先来看看深度学习的官方定义:

“深度学习是一种特殊的机器学习,通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性,其中每个概念都定义为与简单概念相关联,而更为抽象的表示则以较不抽象的方式来计算。”

机器学习和深度学习的对比

深度学习与传统的机器学习最主要的区别在于随着数据规模的增加其性能也不断增长。

当数据很少时,深度学习算法的性能并不好。这是因为深度学习算法需要大量的数据来完美地理解它。另一方面,在这种情况下,传统的机器学习算法使用制定的规则,性能会比较好。下图总结了这一事实。

03

训练数据

在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。

“专知”给我们列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。

1、Kaggle数据集

Kaggle数据集地址https://www.kaggle.com/datasets

这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

2、Amazon数据集

AWS开放数据地址https://registry.opendata.aws/

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常快。

3、UCI机器学习数据集

UCI数据集地址:https://archive.ics.uci.edu/ml/datasets.html

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

4、Google数据集搜索引擎

Google数据集搜索引擎https://toolbox.google.com/datasetsearch

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

5、微软数据集

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址:https://msropendata.com/

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

6、Awesome开放数据集收藏列表

Awesom Public Datasetshttps://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

7、政府数据集

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集https://data.europa.eu/euodp/data/dataset

美国政府数据集https://www.data.gov/

新西兰政府数据集https://catalogue.data.govt.nz/dataset

印度政府数据集https://data.gov.in/

北爱尔兰公共数据集https://www.opendatani.gov.uk/

8、VisualData数据集

VisualData数据集https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

04

华云数创

集多年的多行业项目实践

强大的专家团队

除了找到特定的数据集来解决各种机器学习是一个难点外,相信从业者的你们还有类似于:

如何针对业务特点进行技术选型?

大数据平台的如何从数据存储转变为数据价值?

数据治理如何能创造价值?

如何从0到1构建机器学习平台?

如何对平台进行持续迭代优化?

在政府、电力、金融、公共事业、公安、交通、企业应用中的实践如何?

在此实践过程中又会踩哪些坑?

我们如何能站在巨人的肩膀上更少更快更高的交付项目?

华云数创开放的合作体系“销盟”如何促进各方的合作?

......

等等问题。

那么不妨来华云数创(北京)科技有限公司来坐坐,喝杯茶,一起找找思路、解决方案或者合作。

如果您喜欢此篇文章,记得发到朋友圈哦!分享智慧,好运常伴您!

加入“销盟”吧,有料的“ICT销售和大客户联盟”(微信ID:ICT-League)让我们走的更快,看的更高,做的更好。

Help You Do Different!

结识同行、洞悉商机、掌握技术和时讯

华云数创(北京)科技有限公司

www.chinaclouddata.com.cn

注意啦,现在

IT圈最有料的“ICT销售和大客户联盟”(微信ID:ICT-League)

绝对让你站在IT鄙视链的顶端

分享是一种美德,转载请注明来源和出处!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
两张流程图解释什么是机器学习/人工智能
13个顶级的机器学习和人工智能课程(Free)
DIG: Dive into Graphs 图深度学习工具包
人工智能:AI术语的介绍
澄明:简述深度学习与GeoAI
精彩!这27本书籍,每位数据科学家都应该阅读(附说明图表)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服