[1]Big data哪里找？

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事, 生物医学数据挖掘，R语言，TCGA、GEO, SEER数据挖掘。

作者：白介素2

继续坚持阻击疫情，从我做起，坚持原地不动。读读文献，分享给大家。

前言

对于没有接触过数据挖掘，生物信息数据的生物医学研究人员、学生而言，让他们从头去找数据，开辟新的研究方向是无比艰巨的；面临的第一个问题就是不知道有哪些数据，去哪里找数据？当然还有接下来的其它问题，如何下载数据？数据结构如何？如何分析数据？

当然了，冰冻三尺，非一日之寒；我们今天首先解决一个问题，勾勒一个大概的轮廓；对数据资源有一个大体的了解。

Big Data哪里找

今天读的文献是一篇 review article，告诉大家想做数据挖掘，数据哪里找。要想挖掘数据，首先要有数据积累，近年来生物信息数据挖掘越来越火爆的原因正是芯片、测序数据的成熟，以及大型研究项目数据库的数据资源积累；包括最近的前沿热点单细胞测序数据。

· 我们必须要知道自己生活在“大数据”时代，这推动了在“精准医学”领域已经取得的许多突破，并将支撑到大部分治疗和预防进展。数据可以由很多方式产生的：比如由个体研究人员/实验室，由主办和可能管理数据的，国家项目，例如著名的癌症基因组图谱 TCGA。

数据资源汇编

Nucleic Acids Research杂志每年都会发布数据库专刊，包括新开发的数据库及大型数据库的更新，比如

National Center for Biotechnology Information (NCBI), Swiss Institute of Bioinformatics, European Bioinformatics Institute；and the DNA Data Bank of Japan。

甚至今年NAR还专门会发布 web server相关的数据库，简单点就是一些在线的网络数据库。

网络生物信息资源合集

https://www.hsls.pitt.edu/obrc/ 划重点，奉上网址

由University of Pittsburgh Health Sciences Library System维护的专门收集生物信息网络资源的网址，可谓数据库收集之集大成者。

包括 NAR database， web server issues以及 BMC database集合

生物分子储存库“枢纽”

!1580304983563](pData\Roaming\Typora\typora-user-images\1580304983563.png)

NCBI是NIH的大型电子生物信息和数据库。许多研究人员熟悉储存在GenBank、DBSNP、PubMed文献数据库中的核苷酸和蛋白质序列记录，世界各地的研究人员都使用NCBI的BLAST门户。对于NCBI网站的研究人员来说，一个强大的工具往往被忽视：NCBI站点范围内的搜索，称为entrez。
通过NCBI的网址：http://www.entrezncbi.nlm.nih.gov.用户可以在搜索框中输入基因符号、疾病名称或任何短语，entrez系统将在NCBI的数据库和工具上进行搜索，以检索NCBI站点上39个数据库中每个数据库的结果计数。

dbGap数据库

基因型和表型数据库（dbGaP），用于存档和分发研究人类基因型和表型相互作用的研究数据和结果。

GEO数据库

该数据库将精选的基因表达数据集以及原始系列和平台记录存储在基因表达综合库（GEO）中。输入搜索词以找到感兴趣的实验。数据集记录包含其他资源，包括群集工具和差异表达式查询。

Clivar数据库

ClinVar汇总有关基因组变异及其与人类健康关系的信息
另外两个存储枢纽：

The Swiss Institute of Bioinformatics

EMBL-EBI

与世界各地的科学家和工程师合作，并提供在生命科学领域公开共享数据所需的基础架构。开发数据库，工具和软件，以使匹配，验证和可视化公共资助研究中产生的各种数据成为可能，并使所有人免费获取该信息。

今天暂时写这么多吧，每天一点，我们一起见证时间的力量，剩下的下期在写吧。

题外话

2020的春节注定是一段镌骨铭心的时间，此时此刻我的很多师长、师兄师姐们正奋战在抗击疫情的最前沿，他们勇敢逆行，一往无前；我想向你们致敬，但我不想称你们为天使，我知道你们只是负重前行的普通人。愿我的祖国早日战胜疫情，愿你们都平安，为你们祈祷。
春节前，我给杂志主编回信时加了一句我们正在过中国传统春节假期，祝他新年快乐。今天他回复我说Happy New Year and all the best in the year of the rat! But terrible that it had such a rocky start, we will pray for the people who have been exposed to the virus. 你们看，其实我们都在祈祷。

本期内容就到这里，我是白介素2，下期再见，点击下方框框留言。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。