打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
​老司机带你解锁Excel高效富集分析


解螺旋公众号·陪伴你科研的第2213天

Excel+生信

GO与KEGG富集分析在生物信息学研究中广泛使用。2019年4月国际知名期刊Nature Communications发表了一个持续更新的免费富集分析数据库——Metascape(http://metascape.org)【1】,其优点有:

1. 内容丰富,整合了40多种生物信息学知识库;
2. 操作简单,分析快速;
3. 持续更新,结果可靠;
4. 可输出高质量图表;
5. 可进行基因相关的蛋白质网络分析和涉及到的药物分析。

Metascape使用过程中也有一些缺点,例如频繁的涉及上传、下载、合并操作等。为了解决这一问题,Metascape官方推出了一个实用的Excel插件——Metascape for excel(M4X),从此Excel高效搞定富集分析不是梦。今天半夏就给大家分享这个可以提高富集分析效率的Excel神器!

1
Metascape for excel插件下载与安装

1. Metascape for excel插件下载
进入Metascape官网(http://metascape.org),右上角Tools -> Metascape for Excel进入Metascape for Excel (M4X)界面,点击Ddownload M4X 1.0.0下载插件。值得注意的是目前M4X仅支持PC,没有Mac版本。

2. 插件安装
解压下载文件,点击setup.exe安装,安装完成后Excel加载项选单中会出现M4X。

3. 疑难解答
如出现加载项加载异常情况,解决办法为:点击文件 -> 选项 -> 加载项加载插件。如果M4X在非活动应用程序加载项/禁用应用程序加载项中,则点击下方管理 -> COM加载项/禁用应用程序加载项中 -> 转到,选中Metascape Addin,点击确定即可。

2
Metascape for excel插件的使用

M4X功能强大可满足常见分析需求,可以实现Custom Analysis中的所有功能:
C (ID Conversion);
A (Annotation) ;
M (Membership) ;
E (Enrichment)。
接下来我们一起跟随M4X开启一段奇妙旅行吧!

1. ID Conversion
目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作。Metascape支持Gene Symbol、RefSeq、Ensembl ID、UniProt ID等多种格式的数据输入,但其分析都是以Entrez ID进行。DAVID(https://david.ncifcrf.gov/ )数据库下Shortcut to DAVID Tools可进行Gene ID Conversion:

Uniprot(https://www.uniprot.org/ )数据库下Retrieve/ID mapping也可以进行Gene ID转换:

上述Gene ID转换方法都需要进行数据上传与下载而M4X插件可以在Excel中快速实现ID转换。

步骤如下:
(1) Excel打开文件,选中待分析的基因或蛋白,这一步相当于网页版Metascape的数据上传:

(2) 在M4X插件中打开Custom Analysis,选择ID Conversion:

打开From current ID type下拉菜单,选择Best guess可以让M4X自动识别输入格式和物种;为求精确也可以手动选择选择。在Location of the Result可以选择结果的输出位置,如选择Insert to Current Sheet可以直接将结果插入到当前表格中,节省了Metascape for web下载后的表格合并的时间。不管选择哪一种输出位置,原始Excel文件中所有已存在的数据、格式、图表和公式都将保留,不会被覆盖。

(3) 点击Apply,快速输出结果:

扩展:
值得一提的是,平时我们在使用Excel输入gene symbol时,经常会遇到gene symbol被错误地转换成日期或数字的情况,例如:

在后续地分析如基因筛选或富集分析中,这样的gene symbol是不能被识别的,因此会造成许多麻烦。那么如何避免这种转换?2017年Plos One上发表了Escape Excel工具可以避免这种转换【2】,下载地址:https://github.com/pstew/escape_excel 
此外还可以在基因前输入一个单引号
(单引号在结果中不会显示
)来解决这一问题,但当基因数量很多时,这样的做法显然不可行。
使用M4X插件可以非常方便的将Gene symbol转换为RefSeq或gene ID,以便后续分析:

2. Annotation
选中Entrez Gene ID格式的基因或蛋白,点击Custom Analysis中的Annotation选项卡,可以看到Annotation界面操作与Metascape for web完全一致。选择想要注释的条目,点击Apply, Location of the Result选择结果的输出位置,注释结果就可以快速添加到当前Excel表中。

3. Membership
Membership的操作界面也与Metascape for web一致,很好上手。

4. Enrichment
Enrichment选项卡同样与Metascape for web一致,可以方便地进行KEGG Pathway、GO Molecular Functions、GO biological Processes、GO Cellular Components等分析。在左侧Pathway&Process Enrichment中设置富集分析相关参数,如Min Overlap和P值;右侧设置PPI相关参数。

以KEGG pathway为例。点击Enrichment Analysis,可以看到,结果与Metascape for web完全一致。

同样,可以选择结果的输出位置:

所有生成的结果图都可以保存PDF等。

点击Apply,输出的结果可以直接用于R语言或Cytoscape作图。

5. 辅助功能
Metascape不支持Office撤回快捷键Ctrl+Z,如需返回上一步,可以使用加载项选单中的
。选中基因后,可以使用
快速转到对应链接,比如选中gene list中的ZEB2,点击Gene Page,即可打开ZEB2基因的Entrez搜索结果界面。

3
小结

GO或KEGG富集分析时,有了Metascape for Excel插件,我们不再需要上传或下载文件,也不需要使用VLOOKUP等将结果与原始数据表合并,自此一个Excel走遍天下。

今天有关使用Excel高效进行富集分析就到此为止了,希望对大家有所帮助,祝大家早日发文章!

参考文献:

1. Zhou Y, Zhou B, Pache L, Chang M, Khodabakhshi AH, Tanaseichuk O, Benner C, Chanda SK. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nat Commun. 2019 Apr 3;10(1):1523. doi: 10.1038/s41467-019-09234-6. PMID: 30944313; PMCID: PMC6447622.

2. Welsh EA, Stewart PA, Kuenzi BM, Eschrich JA. Escape Excel: A tool for preventing gene symbol and accession conversion errors. PLoS One. 2017 Sep 27;12(9):e0185207. doi: 10.1371/journal.pone.0185207. PMID: 28953918; PMCID: PMC5617173.

END

点下“在看”,多根头发


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
DAVID&Metascape:专注于基因功能注释和富集通路分析的网站
拿到基因两眼一抹黑?没关系,先做个基因富集分析吧!
​无代码高效绘制富集分析气泡图
用Metascape进行一站式的蛋白功能富集和PPI网络分析
Metascape:基因注释、功能富集分析、蛋白质互作分析
metascape: 最强大的基因富集分析在线工具
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服