大家好,我是宝器!
昨天在知乎看到一个问题:从零开始学数据分析,什么程度可以找工作,如何计划学习方案?
提问者背景是:在coursera 上面学data science 中的R programming,本硕均为化学工程,过去很少接触过 统计、计算机 这两个学科,现在很想转行做数据。具体问题如下:
1.data需要学到什么程度可以找工作,该怎么学?
2.初级的数据分析会做哪些工作?
3.数据分析有什么小方向吗?
4.想要深度做数据分析有怎样的建议
5.统计的学习应该从哪里下手
1-5这几个问题在文末的阅读原文链接有宝器在知乎的回答,有疑问的小伙伴可以去看下。
关于第5点统计学,昨天正好在Github上看到一个MD写的笔记,内容很细,分享给大家。
在每次试验中只有两种可能的结果,而且是互相对立的; 每次实验是独立的,与其它各次试验结果无关; 每次发生的概率不变;
重复多次独立事件,取平均值为新的随机变量, 新的随机变量的新的概率密度函数符合正态分布 二项分布实验次数足够多会趋近于正态分布
任意具有良好的均值和方差的分布,不管分布具体是什么样子,抽取n个样本值(独立重复事件)为一组样本, 样本均值的频率图很接近正态分布。
随着样本容量n增加,样本均值的频率图无限接近正态分布; 抽样分布与原始分布拥有同样的均值, 任何一个样本均值将会约等于其所在总体均值。 抽样分布方差为原始分布方差的1/n(n 为样本容量)
* $\sigma_x^2 = \frac{\sigma^2}{n}$
伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。
置信区间是指由样本统计量所构造的总体参数的估计区间。
假设检验假是是推论统计中用于检验统计假设的一种方法,根据样本统计量来检验对总体参数的先验假设是否成立。
平方误差
协方差是在概率论和统计学中用于衡量两个变量的总体误差,而方差是协方差的一种特效情况,即当两个变量是相同的情况。
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
笔记地址:
https://github.com/newyoung21/Statistics-notes
联系客服