打开APP
未登录
开通VIP,畅享免费电子书等14项超值服
开通VIP
首页
好书
留言交流
下载APP
联系客服
没错,有此神器,GEO数据挖掘就是可以为所欲为!
阿非ycfg
>《数据挖掘网站》
2020.06.05
关注
就是这么豪横!
近年来,随着测序技术的蓬勃发展,科研已然进入了大数据时代。高通量测序分析在科研领域中遍地开花,只要你随便翻开几篇文献,就能找到microarray、RNA-seq等熟悉的字眼。
现阶段,生信数据的信息挖掘仍处于浅尝辄止的状态,仍有大片蓝海静待有心人挖掘。可是一想到高深莫测的生信技术,满屏幕的代码,看起来杂乱无章的数据,就让人头疼。
不过,没关系,小编今日就分享一款RNA-seq数据挖掘的在线工具——BioJupies,无需敲代码,只需动动手指,点点鼠标,就能进行初级的大数据挖掘和分析,甚至找到一个独属于自己的小课题!
01
BioJupies是一款进行RNA-seq数据挖掘的在线工具,可以直接选择公开的数据集或上传个人数据进行比对、定量分析,最重要的是可以返回永久URL保存报告结果,方便我们多次查看。
打开浏览器输入BioJupies的网址链接:https://amp.pharm.mssm.edu/biojupies/,进入BioJupies的主页,界面中可以直接看到使用该网站进行数据分析的一个基本步骤。
点击Get Started,会弹出选择数据的页面:可以选择自己的数据进行上传,也可以选择GEO数据库中9000多个已经发表的数据进行分析(根据物种、组织类型、发表年份或、GEO样本id号搜索数据集)。
02
点击中间的your data可上传自己的数据。在跳转的新页面中,有两个数据类型可供选择,左边是基因表达的定量数据,右边是原始的下机数据,也就是fastq文件。
这里选择基因表达矩阵进行输入(点击Gene Expression Table),点击空白处可以选择本地的文件进行上传。
值得注意的是,所上传的数据必须是原始的counts文件,并建议使用基因symbol作为行名。
这里我们选择使用它的示例数据进行分析(点击Example|Load Example)。
上面显示的页面,就说明数据上传已经完成。从中可以看到文件的第一行是样本名,第一列是基因名,内容是counts数据,大家在上传自己的表达数据时也要是这样的格式才可以。
点击Continue,填写样本信息。示例数据包含六个样本,可以选择在左侧手动填写,或在右侧上传一个metadata文件导入样本信息。
这里我们选择手动输入每个样本所属的组别信息,大家根据自己的需求填写就可以了。
点击continue进入分析模块,界面中涵盖了转录组的基础分析内容,如数据的基础分析、差异基因分析和可视化、富集分析和一些小分子分析的内容。
我们可以通过add和remove按钮去添加和删除分析,同时,可以点击more info按钮查看该分析的描述。
这里加入差异分析的模块以及富集分析的一些模块(见下图),继续进行下一步。
页面刷新后,需要填写差异分组,即设置进行差异分析的对照组和实验组(点击分组)。
选择好了之后,继续点击Continue,进入选择参数的页面,结果会以notebook的格式进行储存。
下面是分析模块参数的选择和设置:
1)PCA分析,可以选择前多少的高变基因、标准化方法、是否使用z-score以及是否交互式界面来进行分析。
2)聚类分析,也可以选择前多少的高变基因、标准化方法进行分析。
3)火山图分析,可以选择筛选差异基因的阈值,包括p值、fc值。
4)Enrichr分析,可以选择使用多少个基因和排序方式来进行分析。
5)GO富集分析,可以选择数据库的版本还有排序的方式。
同样,Passway富集也可以选择排序的方式。
当设置好全部参数之后,就可以点击generate notebook生成结果。
03
点击open notebook打开结果。报告一共包括4大部分:Introduction、Results、Methods和References。
1.Introduction
各个分析模块儿的超链接,点击超链接可以跳转到下面的对应的分析模块儿。
2.Results
第一部分是
上传的数据以及样本信息
。
第二部分是
PCA分析
,图中显示的数据的前三个主成分(PC)的三维散点图。
每个点代表一个样本,同样的颜色代表相同的组,具有相似的基因表达谱的样本在三维空间中距离更近。
第三部分是
聚类分析结果
,通过clustergrammer工具使用高变基因对样本进行聚类,并绘制热图。
热图中行是基因,列是样本,颜色从蓝到红代表基因表达从低到高。左侧的工具栏可以选择基因和样本的排列方式,还可以搜索基因等。
第四部分是
library size分析
,使用柱状图的方式展示了每一个样本的reads总数。
第五部分是
差异基因分析结果
,使用的是DGE法。
第一列是差异基因,第二列是logFlodChange值,第三列是标准化之后的表达量的平均值,第四列是p值,第五列是矫正后的p值。
第六部分是
火山图
,是对差异基因的可视化,每个点代表一个基因,蓝色是表示基因下调,红色是表示基因上调,黑色表示非差异基因。
第七部分
MA
图与火山图是类似的
。
第八部分
富集分析。
Enrichr
是一个基于web的综合性的基因富集分析工具,提供了两个链接,就是对上调的基因和下调的基因使用enrichr富集的结果。
第九部分
GO富集结果
,分生物学途径、分子功能和细胞组成三个level。
网站使用柱状图对富集结果进行展示,每一个柱子代表一个GO条目,把鼠标放到上面会显示该GO条目的信息和富集到该条目中的基因。
红色代表上调基因富集的结果,蓝色代表下调基因富集的结果。
再下面是
pathway富集的结果
,包括三个数据库:KEGG,reactome和wikipathways,结果展示方式与GO类似,我就不重复介绍了。
3.Methods
该部分对上面我们所有分析用到的方法进行了简单总结,大家可以通过这里的描述对分析方法进行简单的了解。
4.References
这就是整个报告的内容,大家把链接保存下来,就可以反复查看了。当然每一部分的结果大家都可以下载下来,也可以通过调整前面的参数对结果进行进一步的调整。
04
当我们手中没有已经定量好的结果,而是只有原始下机的fastq文件时,BioJupies也是支持比对和定量分析的。
点击raw sequencing data,进入上传原始数据的流程。
点击upload files,然后选择本地的文件。需要注意的是这里要上传原始下机数据fastq文件,且BioJupies的定量是基因水平上的定量结果。
上传之后,原始数据分析第一步是比对分析,需要先确定物种(人/小鼠)和测序方式,选择好后,点击continue,它就会进行比对和定量。
这个页面就是比对完成之后所展示的页面。
那接下来就是选择分析模块儿、设置分析参数最后收获分析结果,这里就不再赘述了。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报
。
打开APP,阅读全文并永久保存
查看更多类似文章
猜你喜欢
类似文章
【热】
打开小程序,算一算2024你的财运
如何在四分钟内完成一篇SCI文章的全部数据分析
Meta-analysis肺癌中的miRNA的表达
不懂R,怎么分析GEO的数据(2)?
非肿瘤生信,零代码发到5+SCI?凭啥?学会这个套路!让你的科研起飞!
没做任何实验,刚接受了篇3.9分的文章,和大家分享下我是怎么做的
只聚焦一个基因如何进行下一步研究?
更多类似文章 >>
生活服务
热点新闻
留言交流
回顶部
联系我们
分享
收藏
点击这里,查看已保存的文章
导长图
关注
一键复制
下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!
联系客服
微信登录中...
请勿关闭此页面
先别划走!
送你5元优惠券,购买VIP限时立减!
5
元
优惠券
优惠券还有
10:00
过期
马上使用
×