故事摘自知乎，鉴于有较大的启发意义，整理分享给大家。

大牛A：工作6年，咨询公司+数据公司

1、分析与挖掘工具的选择

数据分析、数据挖掘的相关软件发展速度相当快。不必纠结于学习哪个软件，一方面要考虑自身条件，另一方要考虑团队情况，不要大家都在用R，你去用python，不是不可以，而是会加大了学习工作的成本,SQL和Excel是基础。

2.不要迷恋算法

体现你在公司中的价值不是你用的算法多高明，报告多华丽，一切分析和挖掘的终极目的是解决问题。只要你解决了问题，你就是牛逼的，即使你用线性回归，也没有人去说你，你也不要因为用了简单算法而自惭形考，因为随着你对算法的了解，你会发现很多算法是殊途同归，一种算法可能是另外一种算法的扩展。算法的重要性体现在你可以有多种方法去解决同一个问题，甚至有时一个问题也许就只有唯一解。

3. 拓展知识，统计学和概率方面的知识要学一下，基础之一。

4.与其他人员的交流沟通

坊间流传着一种说法，好事从来轮不到做数据的，出问题了做数据的来背锅。我可以告诉你这中情况很可能发生。数据人员在一个公司中面对的人员非常多，包括技术开发、运维、运营、市场、高层等等。人多了，打起交道来有时候并不那么简单，单单一个指标的制定就可能设计到不同部门的部门利益。做分析或者挖掘都是要结合业务来的，如果你不了解业务或者业务人员故意不告诉你一个东西，你做出来的东西很可能把自己给坑了。一定不要拿着做出来的结果想当然的去告诉别人该怎么做，一切分析的结果都是执行的参考，特别是对高层，尤其要注意。有时候一个政策的执行会设及到很多方面，一些事情你并不一定了解。对自己输出的结果有充分的了解，因为数据既可以指导业务，也可能伤及到业务，甚至伤人。

5.独立完成一个项目，从数据采集、数据清洗、模型建立、模型优化、结果输出等等所有的工作都要自己来完成。任何一个数据分析或者挖掘项目，不管多么小，相关的流程都要走一遍，做多了就会知道自己的瓶颈。

6.用有一定的编程能力，如果你毕业自计算机相关专业，那么你要更关注3，如果你毕业于统计学或者数学等专业，那么一定要提高自己的编程能力。好处多多，例如可以把一些复杂性不高但重复性高的工作自动化。另外很多数据分析挖掘工作要有较强的工程能力来配合，而编程是不可或缺的。

大牛B：某Amazon-机器学习及数据科学家

【履历】

10年至12年，谷歌公司的实习生；

12年到17年，博士毕业，于Amazon担任机器学习及数据科学家。

【见闻】当年一起从事数据研究（数据挖掘）的小伙伴都去哪儿了？

转纯程序员（50%左右）：数据科学家的价值体现其实非常曲折，有些时候心累了，就直接转纯程序员了。中间牛逼无敌的大有人在，因为程序员的选择面很宽，所以不乏薪资比我多两三倍的牛人～
转PM（40%左右）：数据科学家免不了忽悠，忽悠多了失去了自己，有的就变成了会写SQL的产品经理。
变成全栈数据科学家（10%左右）：能在数据科学方面混到很多年的，大多都最后变成了全栈科学家，我现在就在这条路上走。全栈化的好处是前面可以通程序员、系统构架，后面可以通管理层，大侃价值观，对全局把控强了之后，做的东西更容易落地。坏处是头发白的特别多。

经验：机器学习技术方面

模型是平的，很容易获得。经验是曲折的，必须耗费无数血汗去获得。这点不管对于做研究还是做业务都是如此。模型方面，现在不外乎五大生态系统：

Python + Scikit Learn，最适合生产环境和数据研究混用
Spark + MLLib
Java + Weka
TensorFlow等深度学习生态
微软等内部重造轮子生态

上面五种生态除了最后一个，其实都非常容易入门，有基本的数学、统计知识，看看github源代码，鼓捣鼓捣基本上都是可以出东西的。但是具体参数怎么调，这些都是费力不一定讨好的地方，具体出多少成果，完全要看自己的具体领域和上下游情况。

大牛C：某IT从业者，转行数据分析；2年IT，3年数据分析经验

【履历】

2012-2014年，从事数据报表开发，学SQL，用Java；期间学习BI的项目实施。

2014年-2017年，方向转为数据分析。公司开发大数据，转而学习Hive sql，研究linux，目前在学R

【经验】

1、学一门通一门，以后难有机会回头。一年的finereport报表开发让我有了业务基础，期间没有丢弃老技能Java，后重拾起Java做接口开发。有了Java的基础很好上手Hadoop，之前学的SQL也再Hive SQL上派上了用场。linux学习有些困难，R语言视为了数据挖掘需要。

2、业务督促是最好的导师，有的学习是自发的，也是业务逼的。

大牛D：两年数据挖掘/机器学习

互联网数据挖掘/机器学习的日常工作：

了解需求，考察数据。和产品和运营开会，了解需求，自己去数据仓库中考察各种数据（写HiveQL，类SQL语言）。
生成原始特征表。考察完之后将要用的数据汇总到一张Hive表中，作为原始特征表，这张表为后面的特征工程提供原始数据（写ETL）。
模型选择。将问题抽象成分类、聚类或者是标注问题，然后选择一个模型(熟悉机器学习算法)。
实现模型，或者用开源工具包。用开源工具包需要先熟悉接口（熟悉机器学习算法或是开源工具包，自己实现的话用CPP或是Python，Java写矩阵运算有点尴尬）。
特征工程。根据2中的原始特征表生成4中模型需要的数据，特征的增删改都需要在特征工程中完成。特征工程是整个过程中用时最长，影响最大的环节，需要工程师对业务深刻了解。（一般是计算密集型程序，单机跑太慢，用分布式集群跑，就得用MR程序或者Spark程序，现在比较流行Spark）。
将结果数据写回Hive，然后生成抽查数据，让运营检验（写HiveQL）。

经验总结：一个数据挖掘工程师工作中用到的技能包括HiveQL、ETL、机器学习算法、一种强类型语言（CPP/Python/Java也行吧）、Spark/Hadoop。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。