R软件入门教程

在应用统计学中，数据量一般是比较大的，变量也很多。如果用上述方法来建立数据集，好像辛苦了一些。上述方法适用于少量数据、少量变量的分析。对于大量数据和变量，一般应在其他软件中输好，再读R中处理。

1、读入输好的纯文本文件

若数据已经输入一个纯文本文件“c:/test.txt”。其格式如下：

     Price    Floor     Area   Rooms     Age  Cent.heat

01   52.00    111.0      830     5       6.2      no

02   54.75    128.0      710     5       7.5      no

03   57.50    101.0     1000     5       4.2      no

04   57.50    131.0      690     6       8.8      no

05   59.75     93.0      900     5       1.9     yes

其中第一行为变量名，第一列为记录序号。

则利用read.table( )函数可读入数据，如：

read.table(“c:/test.txt”)->test

便把数据集读入，并命名为test。

注：文件的后缀不必一定要.txt，关键文件要为纯文本，里面不能有特殊格式符。

如果数据文件中没有第一列记录序号，如：

Price    Floor     Area   Rooms     Age  Cent.heat

52.00    111.0      830     5       6.2      no

54.75    128.0      710     5       7.5      no

57.50    101.0     1000     5       4.2      no

57.50    131.0      690     6       8.8      no

59.75     93.0      900     5       1.9     yes

则命令语句为：

read.table(“c:/test.txt”, header=TRUE)->test

系统根据每个变量第一个值的类型，自动识别变量类型，如以上数据集中，除最后一个“Cent.hear”是字符变量，其他均为数值变量。

2、读入其他格式的数据库

要读入其他格式数据库，必须先安装“foreign”模块。它不属于R的8个内在模块，需要在使用前安装。

安装方法很简便，只需键入命令：

library(foreign)

即可。

Epi info:

R可读入epi5和6的数据库。命令如下：

read.epiinfo(“文件名.rec”)

即可。

要给数据集一个名字，则是：

read.epiinfo(“文件名.rec”)->名称

例如：

read.epiinfo(“d:/ttt.rec”)->ttt

Stata:

R可读入Stata5,6,7的数据库。命令如下：

read.dta(“文件名.dta”)

SAS：

对于SAS，R只能读入SAS Transport format(XPORT)文件。所以需要把普通的SAS数据文件（.ssd和.sas7bdat）转换为Transport format(XPORT)文件,再用命令：

read.xport( )

SPSS：

read.spss( )可读入SPSS数据文件。

读入数据文件后，使用数据集名$变量名，可使用各个变量。如：

mean(ttt$age)

便是计算数据集ttt中的变量age的均数。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。