没错，有此神器，GEO数据挖掘就是可以为所欲为!

就是这么豪横！

近年来，随着测序技术的蓬勃发展，科研已然进入了大数据时代。高通量测序分析在科研领域中遍地开花，只要你随便翻开几篇文献，就能找到microarray、RNA-seq等熟悉的字眼。

现阶段，生信数据的信息挖掘仍处于浅尝辄止的状态，仍有大片蓝海静待有心人挖掘。可是一想到高深莫测的生信技术，满屏幕的代码，看起来杂乱无章的数据，就让人头疼。

不过，没关系，小编今日就分享一款RNA-seq数据挖掘的在线工具——BioJupies，无需敲代码，只需动动手指，点点鼠标，就能进行初级的大数据挖掘和分析，甚至找到一个独属于自己的小课题！

BioJupies是一款进行RNA-seq数据挖掘的在线工具，可以直接选择公开的数据集或上传个人数据进行比对、定量分析，最重要的是可以返回永久URL保存报告结果，方便我们多次查看。

打开浏览器输入BioJupies的网址链接：https://amp.pharm.mssm.edu/biojupies/，进入BioJupies的主页，界面中可以直接看到使用该网站进行数据分析的一个基本步骤。

点击Get Started，会弹出选择数据的页面：可以选择自己的数据进行上传，也可以选择GEO数据库中9000多个已经发表的数据进行分析（根据物种、组织类型、发表年份或、GEO样本id号搜索数据集）。

点击中间的your data可上传自己的数据。在跳转的新页面中，有两个数据类型可供选择，左边是基因表达的定量数据，右边是原始的下机数据，也就是fastq文件。

这里选择基因表达矩阵进行输入（点击Gene Expression Table），点击空白处可以选择本地的文件进行上传。

值得注意的是，所上传的数据必须是原始的counts文件，并建议使用基因symbol作为行名。

这里我们选择使用它的示例数据进行分析（点击Example|Load Example）。

上面显示的页面，就说明数据上传已经完成。从中可以看到文件的第一行是样本名，第一列是基因名，内容是counts数据，大家在上传自己的表达数据时也要是这样的格式才可以。

点击Continue，填写样本信息。示例数据包含六个样本，可以选择在左侧手动填写，或在右侧上传一个metadata文件导入样本信息。

这里我们选择手动输入每个样本所属的组别信息，大家根据自己的需求填写就可以了。

点击continue进入分析模块，界面中涵盖了转录组的基础分析内容，如数据的基础分析、差异基因分析和可视化、富集分析和一些小分子分析的内容。

我们可以通过add和remove按钮去添加和删除分析，同时，可以点击more info按钮查看该分析的描述。

这里加入差异分析的模块以及富集分析的一些模块（见下图），继续进行下一步。

页面刷新后，需要填写差异分组，即设置进行差异分析的对照组和实验组（点击分组）。

选择好了之后，继续点击Continue，进入选择参数的页面，结果会以notebook的格式进行储存。

下面是分析模块参数的选择和设置：

1）PCA分析，可以选择前多少的高变基因、标准化方法、是否使用z-score以及是否交互式界面来进行分析。

2）聚类分析，也可以选择前多少的高变基因、标准化方法进行分析。

3）火山图分析，可以选择筛选差异基因的阈值，包括p值、fc值。

4）Enrichr分析，可以选择使用多少个基因和排序方式来进行分析。

5）GO富集分析，可以选择数据库的版本还有排序的方式。

同样，Passway富集也可以选择排序的方式。

当设置好全部参数之后，就可以点击generate notebook生成结果。

点击open notebook打开结果。报告一共包括4大部分:Introduction、Results、Methods和References。

1.Introduction

各个分析模块儿的超链接，点击超链接可以跳转到下面的对应的分析模块儿。

2.Results

第一部分是上传的数据以及样本信息。

第二部分是PCA分析，图中显示的数据的前三个主成分（PC）的三维散点图。

每个点代表一个样本，同样的颜色代表相同的组，具有相似的基因表达谱的样本在三维空间中距离更近。

第三部分是聚类分析结果，通过clustergrammer工具使用高变基因对样本进行聚类，并绘制热图。

热图中行是基因，列是样本，颜色从蓝到红代表基因表达从低到高。左侧的工具栏可以选择基因和样本的排列方式，还可以搜索基因等。

第四部分是library size分析，使用柱状图的方式展示了每一个样本的reads总数。

第五部分是差异基因分析结果，使用的是DGE法。

第一列是差异基因，第二列是logFlodChange值，第三列是标准化之后的表达量的平均值，第四列是p值，第五列是矫正后的p值。

第六部分是火山图，是对差异基因的可视化，每个点代表一个基因，蓝色是表示基因下调，红色是表示基因上调，黑色表示非差异基因。第七部分MA图与火山图是类似的。

第八部分富集分析。Enrichr是一个基于web的综合性的基因富集分析工具，提供了两个链接，就是对上调的基因和下调的基因使用enrichr富集的结果。

第九部分GO富集结果，分生物学途径、分子功能和细胞组成三个level。

网站使用柱状图对富集结果进行展示，每一个柱子代表一个GO条目，把鼠标放到上面会显示该GO条目的信息和富集到该条目中的基因。

红色代表上调基因富集的结果，蓝色代表下调基因富集的结果。

再下面是pathway富集的结果，包括三个数据库：KEGG，reactome和wikipathways，结果展示方式与GO类似，我就不重复介绍了。

3.Methods

该部分对上面我们所有分析用到的方法进行了简单总结，大家可以通过这里的描述对分析方法进行简单的了解。

4.References

这就是整个报告的内容，大家把链接保存下来，就可以反复查看了。当然每一部分的结果大家都可以下载下来，也可以通过调整前面的参数对结果进行进一步的调整。

当我们手中没有已经定量好的结果，而是只有原始下机的fastq文件时，BioJupies也是支持比对和定量分析的。

点击raw sequencing data，进入上传原始数据的流程。

点击upload files，然后选择本地的文件。需要注意的是这里要上传原始下机数据fastq文件，且BioJupies的定量是基因水平上的定量结果。

上传之后，原始数据分析第一步是比对分析，需要先确定物种（人/小鼠）和测序方式，选择好后，点击continue，它就会进行比对和定量。

这个页面就是比对完成之后所展示的页面。

那接下来就是选择分析模块儿、设置分析参数最后收获分析结果，这里就不再赘述了。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。