在自学机器学习时,经常有人问:我该从哪学起?我需要达到怎样的数学水平呢?我学过Python了,那接下来我该做什么呢?
本文将对这些问题进行解答,你可以把这篇文章当作是能帮助你从编码小白逆袭为机器学习专业人才的大致框架。
编码第一。先让编码运行起来,再去学习需要用到的理论、数学、统计学或是概率问题的知识,而无需在编码运行前就弄懂这些。
要记住,开始学习机器学习后,你可能会感到很泄气,因为机器学习涉及的知识十分广泛,要慢慢来。
学习其他软件也可以,但以下步骤是针对Python的。
学习Python用法、数据科学工具用法以及机器学习概念
你需要花几个月的时间同时学习Python代码和各种机器学习概念,这二者都会用到的。
学习Python代码时,也要练习使用数据科学工具,如Jupyter和Anaconda。花几个小时研究研究,弄懂它们是做什么的、以及为什么要用这些工具。
学习资源
1.《AI元素》 — 概述了人工智能与机器学习的主要概念。
2.Coursera的《大家的Python》课程— 从头开始学习Python。
3.freeCodeCamp的《学习Python》 — 该网站会将Python所有主要的概念汇总到一个视频当中。
4.科里·谢佛(Corey Schafer)的《Anaconda教程》 — 这是一个可以学习Anaconda的视频,要想学习数据科学和机器学习,你需要利用Anaconda设置好你的电脑。
5.Dataquest的《Jupyter Notebook初学者教程》 —阅读文章,上手使用Jupyter Notebook。
6.科里·谢佛(Corey Schafer)的《Jupyter Notebook教程 》— 一个教你如何使用Jupyter Notebook的视频教程。
利用Pandas、NumPy和Matplotlib学习数据分析、操作与可视化技术
一旦掌握了一些Python的使用技能,就会想去学习处理数据与操作数据的方法。
在此之前,应该先熟悉一下Pandas、NumPy和Matplotlib的使用方法。
Pandas可以处理数据帧,数据帧类似于Excel文件当中的信息表,有横行和纵列。这种数据就是所谓的结构化数据。
Numpy可以基于数据进行数值运算,机器学习可以把能想象到的一切事物转化为数字,再建立出这些数字中的模型。
Matplotlib可以制图,实现数据可视化。对人们来说理解表格中的一堆数据可能很难,大家会更喜欢看那种有线条贯穿始终的图表。实现数据可视化是交流成果的重要环节。
学习资源
1.Coursera的《Python应用数据科学》— 针对数据科学开始调整你的Python技能。
2.《10分钟速学Pandas》— 快速浏览Pandas数据库和一些Pandas最实用的功能。
3.Codebasics的《Python Pandas教程》 — Youtube系列视频,内容涵盖所有主要的Pandas功能。
4.freeCodeCamp 的《NumPy 教程》 — Youtube上一个可以学习Numpy的视频。
5.Sentdex的《Matplotlib教程》—Youtube系列视频,教授Matplotlib所有最实用的功能。
利用scikit-learn 进行机器学习
学会数据操作与数据可视化方面的技能后,是时候学习建模了。
Scikit-learn是Python数据库,自带了很多有用的机器学习算法,以便使用。
它还有许多其他实用功能,用以辨别机器学习算法被学习得有多好。
学习资源
1.Data School 的《利用scikit-learn在Python中完成机器学习》 —Youtube视频专辑,教授scikit-learn的所有主要功能。
2.丹尼尔·伯克(Daniel Bourke)撰写的《探索性数据分析简介》— 该项目汇总了完成上述前两步所需的知识,同时配以代码和视频,这些材料可以帮助准备首场Kaggle竞赛。
3.丹尼尔·福尼莫索(Daniel Formosso)的“借助scikit-learn进行探索性数据分析”的笔记— 该材料从更深入的视角讲述上述学习资源所涵盖的技能与知识,在此基础上,设置了完整的机器学习项目。
联系客服