（三）零基础大数据挖掘实例讲解—

先来解答下上期几个问题。

首先文章中用到了芯片或测序数据一般杂志都要求上传原始数据到公共数据库，只有生成一个数据集编号才能发表文章。当然如果别人发表的文章用

到了你的数据，那必须要引用你的编号。所以有些数据集未见其对应的发表文章，是因为上传者的文章还在审稿中。

那么文章在审稿中还没有发表前，会不会有别的团队下载数据抢在你之前发表文章呢？这个问题其实也不用担心，因为在上传数据后可以设置一个保护时间，在这个保护时间内是不对外公布的。

其次，别人下载你的数据一般用于整合分析或进一步验证和补充其研究内容，所以一般不会影响你文章发表。

我们继续还原开篇文献（PMID: 25712376）的分析流程，当我们收集和整理完数据集后如何解读其信息和下载哪些数据用于分析？

这是文中最终纳入的三个研究：

分析中发现文章一个笔误:GSE35396应为GSE35306。

一般用于后续分析要收集三个文件：

1.基因表达数据，
2.平台注释文件，
3.实验设计即样本分组信息。

1. 基因表达数据
√原始数据 cel或txt
√矩阵数据 txt
2. 平台注释文件 txt
3. 实验设计即样本分组信息以GSE35306数据为例。

其中平台注释信息的页面。

收集这三部分数据：

这样一个研究所有要用到的数据就收集完成了，用于下一步的分析。

（1）首先解释下芯片的原始数据。cel文件是affy芯片公司平台的检测后产生的原始文件，而txt文件则是Agilent公司产生。这两家公司是全球最大的芯片公司，而我国还没有自主开发的基因芯片检测仪器和平台，国内都是这两家公司的代理商，所以钱都被国外赚走了。

(2)矩阵数据txt是标准化后的基因表达数据。行就是代表一个样本编号，列就是代表一个探针号。值就是表达信号值，一般是取对数的（以免值太大）。

（3）平台注释信息，就是所有探针号对应的注释信息，你要知道这些探针号代表的基因是什么，否则怎么筛选出差异基因。

（4）样本的分组信息。只有知道样本的分组信息才能进行统计，没有比较就没有差异。

这期就到这里，下期将对这些收集好的数据进行分析，一步一步还原出分析过程。

点公众号菜单里科研攻略-数据挖掘，查看完整系列~

作者简介

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。