打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据分析师的职业路径,那些大牛现在都是什么状态?

故事摘自知乎,鉴于有较大的启发意义,整理分享给大家。

大牛A:工作6年,咨询公司+数据公司

1、分析与挖掘工具的选择

数据分析、数据挖掘的相关软件发展速度相当快。不必纠结于学习哪个软件,一方面要考虑自身条件,另一方要考虑团队情况,不要大家都在用R,你去用python,不是不可以,而是会加大了学习工作的成本,SQL和Excel是基础。

2.不要迷恋算法

体现你在公司中的价值不是你用的算法多高明,报告多华丽,一切分析和挖掘的终极目的是解决问题。只要你解决了问题,你就是牛逼的,即使你用线性回归,也没有人去说你,你也不要因为用了简单算法而自惭形考,因为随着你对算法的了解,你会发现很多算法是殊途同归,一种算法可能是另外一种算法的扩展。算法的重要性体现在你可以有多种方法去解决同一个问题,甚至有时一个问题也许就只有唯一解。

3. 拓展知识,统计学和概率方面的知识要学一下,基础之一。

4.与其他人员的交流沟通

坊间流传着一种说法,好事从来轮不到做数据的,出问题了做数据的来背锅。我可以告诉你这中情况很可能发生。数据人员在一个公司中面对的人员非常多,包括技术开发、运维、运营、市场、高层等等。人多了,打起交道来有时候并不那么简单,单单一个指标的制定就可能设计到不同部门的部门利益。做分析或者挖掘都是要结合业务来的,如果你不了解业务或者业务人员故意不告诉你一个东西,你做出来的东西很可能把自己给坑了。一定不要拿着做出来的结果想当然的去告诉别人该怎么做,一切分析的结果都是执行的参考,特别是对高层,尤其要注意。有时候一个政策的执行会设及到很多方面,一些事情你并不一定了解。对自己输出的结果有充分的了解,因为数据既可以指导业务,也可能伤及到业务,甚至伤人。

5.独立完成一个项目,从数据采集、数据清洗、模型建立、模型优化、结果输出等等所有的工作都要自己来完成。任何一个数据分析或者挖掘项目,不管多么小,相关的流程都要走一遍,做多了就会知道自己的瓶颈。

6.用有一定的编程能力,如果你毕业自计算机相关专业,那么你要更关注3,如果你毕业于统计学或者数学等专业,那么一定要提高自己的编程能力。好处多多,例如可以把一些复杂性不高但重复性高的工作自动化。另外很多数据分析挖掘工作要有较强的工程能力来配合,而编程是不可或缺的。

大牛B:某Amazon-机器学习及数据科学家

【履历】

10年至12年,谷歌公司的实习生;

12年到17年,博士毕业,于Amazon担任机器学习及数据科学家。

【见闻】当年一起从事数据研究(数据挖掘)的小伙伴都去哪儿了?

  • 转纯程序员(50%左右):数据科学家的价值体现其实非常曲折,有些时候心累了,就直接转纯程序员了。中间牛逼无敌的大有人在,因为程序员的选择面很宽,所以不乏薪资比我多两三倍的牛人~

  • 转PM(40%左右):数据科学家免不了忽悠,忽悠多了失去了自己,有的就变成了会写SQL的产品经理。

  • 变成全栈数据科学家(10%左右):能在数据科学方面混到很多年的,大多都最后变成了全栈科学家,我现在就在这条路上走。全栈化的好处是前面可以通程序员、系统构架,后面可以通管理层,大侃价值观,对全局把控强了之后,做的东西更容易落地。坏处是头发白的特别多。

经验:机器学习技术方面

模型是平的,很容易获得。经验是曲折的,必须耗费无数血汗去获得。这点不管对于做研究还是做业务都是如此。模型方面,现在不外乎五大生态系统:

  1. Python + Scikit Learn,最适合生产环境和数据研究混用

  2. Spark + MLLib

  3. Java + Weka

  4. TensorFlow等深度学习生态

  5. 微软等内部重造轮子生态

上面五种生态除了最后一个,其实都非常容易入门,有基本的数学、统计知识,看看github源代码,鼓捣鼓捣基本上都是可以出东西的。但是具体参数怎么调,这些都是费力不一定讨好的地方,具体出多少成果,完全要看自己的具体领域和上下游情况。

大牛C:某IT从业者,转行数据分析;2年IT,3年数据分析经验

【履历】

2012-2014年,从事数据报表开发,学SQL,用Java;期间学习BI的项目实施。

2014年-2017年,方向转为数据分析。公司开发大数据,转而学习Hive sql,研究linux,目前在学R

【经验】

1、学一门通一门,以后难有机会回头。一年的finereport报表开发让我有了业务基础,期间没有丢弃老技能Java,后重拾起Java做接口开发。有了Java的基础很好上手Hadoop,之前学的SQL也再Hive SQL上派上了用场。linux学习有些困难,R语言视为了数据挖掘需要。

2、业务督促是最好的导师,有的学习是自发的,也是业务逼的。

大牛D:两年数据挖掘/机器学习

互联网数据挖掘/机器学习的日常工作:

  1. 了解需求,考察数据。和产品和运营开会,了解需求,自己去数据仓库中考察各种数据(写HiveQL,类SQL语言)。

  2. 生成原始特征表。考察完之后将要用的数据汇总到一张Hive表中,作为原始特征表,这张表为后面的特征工程提供原始数据(写ETL)。

  3. 模型选择。将问题抽象成分类、聚类或者是标注问题,然后选择一个模型(熟悉机器学习算法)。

  4. 实现模型,或者用开源工具包。用开源工具包需要先熟悉接口(熟悉机器学习算法或是开源工具包,自己实现的话用CPP或是Python,Java写矩阵运算有点尴尬)。

  5. 特征工程。根据2中的原始特征表生成4中模型需要的数据,特征的增删改都需要在特征工程中完成。特征工程是整个过程中用时最长,影响最大的环节,需要工程师对业务深刻了解。(一般是计算密集型程序,单机跑太慢,用分布式集群跑,就得用MR程序或者Spark程序,现在比较流行Spark)。

  6. 将结果数据写回Hive,然后生成抽查数据,让运营检验(写HiveQL)。

经验总结:一个数据挖掘工程师工作中用到的技能包括HiveQL、ETL、机器学习算法、一种强类型语言(CPP/Python/Java也行吧)、Spark/Hadoop。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
3大领域,4大方向,做好数据分析岗位的职业规划
数据杂谈
【小编心得】转行数据科学路上看过的一些书总结推荐
基于机器学习模型的大数据挖掘优化算法
大数据工作职位所需的数据场技能包
「数据分析自学」数据分析商业项目实战与自学进阶
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服