打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
GEO(Gene Expression Omnibus):高通量基因表达数据库

#GEO是什么?

GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Databases下拉框中选择GEO DataSets)。收录了世界各国研究机构提交的高通量基因表达数据。2000年开始建立的时候,主要是表达芯片数据(如其名),但是之后随着数据库的流行,逐渐扩展业务到许多其它的高通量数据,比如:甲基化(genome methylation),染色质结构(chromatin structure),基因组-蛋白交互作用(genome-protein interaction)等。

GEO记录的组织方式

GEO数据库具体存放四类数据:

GEOPlatform (GPL) 芯片平台

GEO Sample (GSM) 样本ID号

GEO Series (GSE) study的ID号

GEO Dataset (GDS) 数据集的ID号

现在的GEO不仅仅包括原始数据,处理过的数据,以及描述性资料等。它还慢慢增加了可视化和数据分析等功能,面向的用户也不再仅限于生信研究人员。一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号。

Gene Expression Omnibus

GEO检索页面介绍

https://www.ncbi.nlm.nih.gov/geo/

GEO资料库介面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,导入数据库(Entry type)主要类型为:datasets、series、samples和platforms,可根据自己实验目来具体选择。

接下来看看怎么进行GEO的数据检索与下载吧

直接搜索

1.输入数据集或样本ID

GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索,以搜索cancer为例:

2.搜索结果页面

左侧选项卡可以允许根据类型、物种、数据类型(表达/甲基化数据)筛选,右侧则列出了主要的物种。

然后点击需要研究的文章进入,点击对应的样本分类号.,找到编码:GSE161948.可以看到,可以选择的scope类型有 Self、Platform、Samples、Series、Family;可供选择的format有SOFT、MINiML和RAW等数据。

3.数据基本信息页

PS :一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,而每个数据集都有着自己对应的芯片平台,就是GPL。

如果是芯片数据,那么就需要看GPL平台里面关于每个探针对应的注释信息,

如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据再进行处理。

特定类型搜索

可以在GEO数据库首页点击Repository Browser,进行特定类型的检索。

进入页面我们可以看见,序列,平台,样本和物种的选项卡,我们可以通过其进行筛选、检索。

最后,点击对应对应的数据即可查看详细内容。

关于GEO的介绍内容,就到这里啦,相信大家已经收获了不少干货吧!这个数据库能提供的功能,其实还很多,这里没有一一写到,GEO是很方便的一个数据库,大家一定要好好利用起来呦。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
可能是我写过最好懂的的GEO数据库入门教程
【生信笔记】查找GEO数据集
GEO数据库挖掘(1)--SCI文章速成
手把手教你多套GEO数据集合并
解读GEO数据存放规律及下载,一文就够
一篇4分的geo数据挖掘文章究竟是怎么样的
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服