今天,给大家介绍一个新的数据库(ps:嘘!其实是给团长补交作业)LNCipedia (http://www.lncipedia.org),它是一种用于研究人类长链非编码RNA(long non-coding RNA, lncRNA)转录本和基因的新型数据库。LncRNAs作为一群庞大且多样化的非编码RNA基因,在表观遗传学调控中发挥举足轻重的作用(不了解的童鞋请关注公众号在历史消息中搜索)。虽然有若干LncRNA的功能已经被注释,但大多数仍有待鉴定。不同的高通量方法用于识别新的lncRNA(包括RNA测序和色谱-状态图注释)已被应用于各种研究中,产生了众多不相关的lncRNA数据集。
来自比利时根特大学医学遗传中心的生物信息学家和分子生物学家,通过整合已有数据和研究发现,搭建了LNCipedia并于2013年将成果发表于核酸研究(Nucleic Acids Res, NAR),提供了21 488个由不同来源获得的人类lncRNA转录本。除了基本的转录信息和基因结构外,数据库中每个条目都有一些统计信息,如二级结构信息、蛋白质编码潜力和microRNA结合位点。
分析表明,与microRNAs相似,许多lncRNAs具有重要的二级结构,与它们与蛋白质或蛋白复合物的推测结合。有关特定lncRNAs的可用文献是链接的,用户或作者可以通过web界面提交文章。蛋白质编码电位由两种不同的预测算法来评估:编码电位计算器和HMME R。此外,通过自动重新分析在PRIDE数据库中大量公开的质谱数据,LNCipedia集成了预测lncRNAs潜在编码多肽的检测工具。因为LNCipedia是公开的,允许用户查询和下载基于不同搜索条件的lncRNA序列和结构。该数据库可以作为启动小型和大规模lncRNA研究的资源。
由于认识到人类基因组可能被广泛地转录,从而可以产生成千上万的非编码RNA转录本。该研究团队在时隔两年后再次于NAR上发表文章介绍LNCipedia的更新情况。大量新的lncRNA基因被识别出来,科学家们重新定义LNCipedia 作为lncRNA transcripts和annotation的在线存储库,以便简化相关的研究工作。LNCipedia 3.0作为当时最新版本且是公开可用的人类lncRNA数据库,规模增长了5倍,获得了超过90000个新的lncRNA记录。评估LNCipedia条目的蛋白质编码潜力的方法更是得以改进,包括大规模重新处理公开的蛋白质组数据的方法。从而定义了一组具有低编码潜力的lncRNA的高可信度文本,并提供了在线下载。此外,还植入了一种评估人类、小鼠和斑马鱼之间lncRNA基因保护的工具。
人家现在已经更新到Version 5.0!!!超过12万条,对!你没看错!十二万!
吓得宝宝扔掉了刚买回来的lncRNA芯片,才六千多条?什么鬼?小辣鸡!
LNCipedia: a database forannotated human lncRNA transcript sequences and structures. Volders PJ, HelsensK, Wang X, Menten B, Martens L, Gevaert K, Vandesompele J, Mestdagh P. NucleicAcids Res. 2013 Jan;41(Database issue):D246-51. doi: 10.1093/nar/gks915.
An update on LNCipedia: adatabase for annotated human lncRNA sequences. Volders PJ, Verheggen K, Menschaert G, Vandepoele K, Martens L,Vandesompele J, Mestdagh P. Nucleic Acids Res. 2015 Jan;43(Databaseissue):D174-80. doi: 10.1093/nar/gku1060. Epub 2014 Nov 5.
联系客服