解螺旋公众号·陪伴你科研的第2213天
GO与KEGG富集分析在生物信息学研究中广泛使用。2019年4月国际知名期刊Nature Communications发表了一个持续更新的免费富集分析数据库——Metascape(http://metascape.org)【1】,其优点有:
5. 可进行基因相关的蛋白质网络分析和涉及到的药物分析。Metascape使用过程中也有一些缺点,例如频繁的涉及上传、下载、合并操作等。为了解决这一问题,Metascape官方推出了一个实用的Excel插件——Metascape for excel(M4X),从此Excel高效搞定富集分析不是梦。今天半夏就给大家分享这个可以提高富集分析效率的Excel神器!Metascape for excel插件下载与安装1. Metascape for excel插件下载进入Metascape官网(http://metascape.org),右上角Tools -> Metascape for Excel进入Metascape for Excel (M4X)界面,点击Ddownload M4X 1.0.0下载插件。值得注意的是目前M4X仅支持PC,没有Mac版本。解压下载文件,点击setup.exe安装,安装完成后Excel加载项选单中会出现M4X。如出现加载项加载异常情况,解决办法为:点击文件 -> 选项 -> 加载项加载插件。如果M4X在非活动应用程序加载项/禁用应用程序加载项中,则点击下方管理 -> COM加载项/禁用应用程序加载项中 -> 转到,选中Metascape Addin,点击确定即可。M4X功能强大可满足常见分析需求,可以实现Custom Analysis中的所有功能:目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作。Metascape支持Gene Symbol、RefSeq、Ensembl ID、UniProt ID等多种格式的数据输入,但其分析都是以Entrez ID进行。DAVID(https://david.ncifcrf.gov/ )数据库下Shortcut to DAVID Tools可进行Gene ID Conversion:Uniprot(https://www.uniprot.org/ )数据库下Retrieve/ID mapping也可以进行Gene ID转换:上述Gene ID转换方法都需要进行数据上传与下载而M4X插件可以在Excel中快速实现ID转换。(1) Excel打开文件,选中待分析的基因或蛋白,这一步相当于网页版Metascape的数据上传:(2) 在M4X插件中打开Custom Analysis,选择ID Conversion:打开From current ID type下拉菜单,选择Best guess可以让M4X自动识别输入格式和物种;为求精确也可以手动选择选择。在Location of the Result可以选择结果的输出位置,如选择Insert to Current Sheet可以直接将结果插入到当前表格中,节省了Metascape for web下载后的表格合并的时间。不管选择哪一种输出位置,原始Excel文件中所有已存在的数据、格式、图表和公式都将保留,不会被覆盖。值得一提的是,平时我们在使用Excel输入gene symbol时,经常会遇到gene symbol被错误地转换成日期或数字的情况,例如:在后续地分析如基因筛选或富集分析中,这样的gene symbol是不能被识别的,因此会造成许多麻烦。那么如何避免这种转换?2017年Plos One上发表了Escape Excel工具可以避免这种转换【2】,下载地址:https://github.com/pstew/escape_excel 。此外还可以在基因前输入一个单引号(单引号在结果中不会显示)来解决这一问题,但当基因数量很多时,这样的做法显然不可行。使用M4X插件可以非常方便的将Gene symbol转换为RefSeq或gene ID,以便后续分析:选中Entrez Gene ID格式的基因或蛋白,点击Custom Analysis中的Annotation选项卡,可以看到Annotation界面操作与Metascape for web完全一致。选择想要注释的条目,点击Apply, Location of the Result选择结果的输出位置,注释结果就可以快速添加到当前Excel表中。Membership的操作界面也与Metascape for web一致,很好上手。Enrichment选项卡同样与Metascape for web一致,可以方便地进行KEGG Pathway、GO Molecular Functions、GO biological Processes、GO Cellular Components等分析。在左侧Pathway&Process Enrichment中设置富集分析相关参数,如Min Overlap和P值;右侧设置PPI相关参数。以KEGG pathway为例。点击Enrichment Analysis,可以看到,结果与Metascape for web完全一致。点击Apply,输出的结果可以直接用于R语言或Cytoscape作图。Metascape不支持Office撤回快捷键Ctrl+Z,如需返回上一步,可以使用加载项选单中的。选中基因后,可以使用和快速转到对应链接,比如选中gene list中的ZEB2,点击Gene Page,即可打开ZEB2基因的Entrez搜索结果界面。GO或KEGG富集分析时,有了Metascape for Excel插件,我们不再需要上传或下载文件,也不需要使用VLOOKUP等将结果与原始数据表合并,自此一个Excel走遍天下。今天有关使用Excel高效进行富集分析就到此为止了,希望对大家有所帮助,祝大家早日发文章!参考文献:
1. Zhou Y, Zhou B, Pache L, Chang M, Khodabakhshi AH, Tanaseichuk O, Benner C, Chanda SK. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nat Commun. 2019 Apr 3;10(1):1523. doi: 10.1038/s41467-019-09234-6. PMID: 30944313; PMCID: PMC6447622.
2. Welsh EA, Stewart PA, Kuenzi BM, Eschrich JA. Escape Excel: A tool for preventing gene symbol and accession conversion errors. PLoS One. 2017 Sep 27;12(9):e0185207. doi: 10.1371/journal.pone.0185207. PMID: 28953918; PMCID: PMC5617173.
点下“在看”,多根头发
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。