打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
可能是我写过最好懂的的GEO数据库入门教程
userphoto

2022.09.11 江苏

关注

我们今天为什么要讲GEO?不少小伙伴打开前,脑子里可能充满了问号。

那这里就告诉你GEO有多好:

别人的数据,发自己的文章!

无论是肿瘤、非肿瘤、芯片、NGS、差异分析,还是分子验证……

你能想到的数据,这里几乎都有,

还可以做一些在线分析。

你会想?这也可以?!

当然可以!发了文章要公开数据的!你用的就是这些数据!

互联网的精神就是公开。

呃,扯远了……下面开始说正题,把这个好用的数据库的基本操作介绍给大家!

一、GEO数据库介绍

1、GEO数据库概况

首先我们来了解一下GEO数据库:

GEO,全称Gene Expression Omnibus (基因表达综合数据库),网址∶https∶/ww.ncbinlm.nih.gov/geo/,是由美国国立生物技术信息中心 (National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。

【先领再看】

课题设计数据挖掘,从文章复现写作投稿,轻松入门GEO数据库,零代码搞定5+生信文章!还等什么?赶紧加入我们的免费geo数据库训练营~

https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9

这就是以后我们做课题和写论文几乎天天都要打交道的GEO数据库了。

GEO数据库最有价值的部分是存储了大量芯片数据,包括原始数据和处理后数据。

GEO数据有两种存储形式,其中:

GEO DataSets 以数据集为单位,存储同一个实验中的数据;

GEO Profiles 以基因为单位,存储基因在数据集中的表达谱。

不同的存储形式涉及两种不同的数据检索方式。

2、GEO数据组织结构

GEO数据库中海量的数据自然不能杂乱无章地堆积,

严密的数据组织结构就是十分必须的。

GEO数据库的数据就依据不同的等级,从大到小,组成了如下所示的层次严密的组织结构:

Platforms 

高通量实验检测所用工具(哪个公司哪款产品),编号GPL开头,例如 GPL570

Series 

构成某个实验的相关样本,组成一个有生物意义的数据集,

包括样本信息和方案设计等信息,可以看做一套完整的实验方案,实际上每个Series基本对应一篇完整的论文,

Series 在科研工作中是最为常用的数据层级! 

编号GSE开头,例如GSE5764。

Datasets & Profiles

一些高质量的GSE数据集还会被GEO官方工作者整理为Datasets和Profiles。

Datasets 是分析好的Series,编号以GDS开头。

Profiles 则以基因为单位存储数据,是Datasets 各分组中的表达谱,分配的是流水号,例如33759453。

但并不是所有上传的数据都会被整理,甚至只有少数会被整理,因为很多GSE数据集没有进一步被拆分的必要。

Sample 

实验中的样本。每一个样本都会分配一个号码。编号以GSM开头,例如GSM134584

在GEO首页,我们就可以根据不同的数据组织结构,查找数据。

研究者上传数据时填写信息,GEO官方根据填写的信息分配编号。

3、GEO的研究数据类型

GEO数据库的数据类型有9种,以芯片为主,例如RNA、甲基化和SNP芯片数据等。

也包括很多高通量测序数据。

高通量测序数据,原始数据存储在SRA,处理后数据则存储在GEO中。

在一份GSE数据集详情页面,我们就可以看到清晰的说明

使用GEO数据时,千万不要忘记注明引用该数据文献的PMID编号!

2、GEO数据库的检索

1、GEO官网简单检索

在官网首页,我们可以轻松地根据数据集等级或编号轻松搜索浏览数据

下面是以lung cancer为关键词的检索结果

但这样,往往只能简单搜到一些完全匹配的数据,需要作者在Title里正好用了你使用的关键词。

点击链接,最后的页面也会回到GEO DataSetsGEO Profiles 两种检索方式。

所以,下面我们分别演示这两种不同的数据检索方式。

2、Entrez的GEO Profiles检索

还是以lung cancer为例,我们检索一下lung cancer的abcc1基因,我们在GEO首页检索框的下拉列表里选择GEO Profiles

可以得到如下结果,各种详细信息都很清楚地展示出来。

这里特别强调一下黄框中两个有用的信息,检索语言和数据信息图示。

在Search Details中可以清晰看出不同关键词之间用布尔运算符表示的逻辑关系。

特别要注意的是“lung cancer”是作为一个完整的词组进行检索;

如果要分别检索“lung”和“cancer”,

在“lung cancer”中间加上“AND”就可以了。

每条明细后面的示意图展示了数据集中不同分组的表达水平

点击示意图,可以查阅详细的分组信息、表达水平和3样本的具体信息。

3、Entrez的GEO Datasets检索和分析

首先,我们在下拉框中选择Datasets。这个检索框可检索GPL、GSE、GDS、GSM,但实际应用中,多数场景下只检索GSE数据集。

我们输入lung cancer cisplatin cisplatin resistant,关于肺癌抗性的关键词,每个条目都列出了数据集明细。两边分别有根据数据集类型和来源的归类整理。

例如,我们选择DataSets数据集,就只显示DataSets结果

点击数据集标题可以进入详情页面,有数据集的各类信息明细,

我们可以先点击查看热图

选择热图指定区域,点击查看Profiles

选择Clustering,可以改变热图的分类方法和表现形式

回到详情页面,点击Expression Profiles,我们可以查看所有该DataSets下所有Profiles

Data Analysis Tools则是一组在线分析小工具

首先是查看Profiles(也就是基因)

如果什么都不填,那和点击点击Expression Profiles的结果是一样的,也就是查看所有的Profiles

如果填写具体基因,就只看到该基因的结果

接下来,依次点击不同小工具选项,按照需求选择分析要求,可分别做差异分析、聚类和中位分布。

点击Sample Subset可获得样本信息

点击DataSets所属的GPL,可获得GPL的详细信息

点击DataSets所属的GSE,可获得GSE的详细信息

在GSE的详情页面,我们也可以访问GSE中每一个GSM的详情

三、GEO数据的下载和解读

GEO数据库提供了两种数据:

原始数据:芯片扫描仪直接读取的原始荧光信号数据

归一化数据:芯片整体荧光信号背景校正,对所有表达情况做标准化和平衡,对异常值做处理,对荧光信号做计算转化为数值变量。

在GSE中,我们可以看到这两种数据

通常我们下载SOFT文件和Series Matrix文件。

但也不是所有归一化后的文件都可用,我们要去GSM的详细信息页面中去找

一般,如下图所示,RAM归一化后的数据是可以直接用的,因为这样的数据经过log2处理,相差不大,分析计算结果比较可靠。

在下载原始数据时,有些GSE数据集可能体积很大,几百M甚至上G,NCBI因为是美国网络,服务器不稳定,浏览器下载很容易中断重来,建议使用迅雷下载。

课题设计数据挖掘,从文章复现写作投稿,轻松入门GEO数据库,零代码搞定5+生信文章!

https://m.helixlife.cn/trainings/d1a65e2e-bc8d-4649-a1d3-18a85556a6de/channel?c=b29a79fd-c4ab-471a-a5e4-97accc3941c9

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
GEO(Gene Expression Omnibus):高通量基因表达数据库
【生信笔记】查找GEO数据集
GEO数据库使用教程及在线数据分析工具
解读GEO数据存放规律及下载,一文就够
数据挖掘专题 | GEO数据下载
GEO数据挖掘 | 正确读取GEO数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服