30天学会R DAY23 基本统计描述方法

第23天常用统计描述和假设检验方法

统计分析包括统计描述和统计推断。

统计描述主要是对定量资料的集中趋势和离散趋势进行描述，包括均数、标准差、中位数，四分位间距，分类资料主要利用绝对数和相对比进行描述，包括样本量、率、比。

统计推断中假设检验是比较两组或多组总体均数是否有差异最为常用的方法，传统的假设检验方法包括t检验、方差分析、卡方检验、秩和检验。

本章将给大家介绍医学数据常用的统计描述。

对资料进行描述之前，我们先导入数据，并对数据进行整理。

t1<-read.csv("elder1.csv")

t2<-read.csv("elder2.csv")

newdata<-merge(t1,t2,by="ID") #合并两个数据

1.定量资料的描述

summary(newdata[c("height","weight")]) #均数、中位数、百分位数

mean(newdata$height,na.rm = T) #算身高的均数，na.rm=T 忽略缺失值

sd(newdata$height,na.rm = T) #算身高的标准差

median(newdata$height,na.rm = T)#算身高的中位数

IQR(newdata$height,na.rm = T) #算身高的四分位间距

range(newdata$height,na.rm = T) #算身高最大最小值

2.分类资料的描述

table(newdata$sex,newdata$sleep) #列联表，不同性别的睡眠状况

xtabs(~sex+ marriage, data=newdata) #列联表，~前可放加权的数据

prop.table(table(newdata$sex)) #百分比的计算

3. dplyr包在统计描述的应用

library(dplyr) #统计描述的语句主要有group_by 和 summarize

group_by 对数据进行分组计算，类似于spss对数据进行分割。

summarize参数包括：

mean(), median(), max(), min(), sd()

IQR()：对均数，中位数，最大，最小，标准差，四分位间距描述

first(), last(), nth(): 返回第几位的值.

n(): 计算数据的数量, 相当于 length() 函数.

n_distinct(): 计算非重复数据的数量, 相当于 length(unique(x)).

summarise(newdata,mean(height,na.rm=T),sd(height,na.rm=T),median(height,na.rm=T)) #汇总，分别计算均数，标准差，中位数

summarise(group_by(newdata,sex),mean(height,na.rm=T),sd(height,na.rm=T),median(height,na.rm=T)) #分组按性别计算均数，标准差，中位数

z<-group_by(newdata,sex) #按sex进行分组

summarise(z,n())#分别计算各组人数

4.gmodels包在交叉表当中的应用

library(gmodels)

x<-CrossTable(newdata$sex, newdata$sleep) ##计算行、列百分比

以上就是对医学数据常用的统计描述与假设检验方，在R语言中，统计描述和假设检的代码相对比较简单，在对医学数据进行分析时，重点还要在于对于前期数据的整理。

DAY23的内容就介绍到这里！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。