Sharing Pathogen Genomic Sequence Data — Toward Effective Pandemic Prevention, Preparedness, and Response
基因组序列数据和相关分析对于追踪病原体的适应、演化和突变情况至关重要,因此对于公共卫生领域防范、准备和应对工作至关重要。它们对于疾病诊断、治疗和疫苗研发也非常关键1。
在过去各次疫情中,由于多种因素,病原体基因组序列的发布一直被推迟,包括科学家希望保留使用其数据发表研究的权利、在分享成果方面犹豫不决、需要在速度和准确性之间取得平衡、政府担心对于由此产生的疫苗和疗法的负担能力等2。虽然病原体基因组序列信息很重要,但目前尚无共享这些数据的全球系统,并且共享数据的各种存储库和站点都按照不同原则和由存储网站的竞争动机决定的条款运行。这些不同的原则和条款妨碍了为公共卫生目标而共享和汇总数据。
回顾这一脱节系统的差距和弱点后,我们提出了三种解决方案:在存储库之间制定公共卫生访问协议,从而可以开展关键研究,而不受到不同使用条款的阻碍;存储库和科学期刊出版商整合形成技术解决方案,推动承认在原始数据方面的贡献;将获取这些数据纳入目前正在谈判中的大流行病防范、准备和应对国际协定中。
SARS-CoV-2基因组首次发布以来的故事证明了这一问题。科学家对病毒基因组进行测序,并于2020年1月10日将测序结果发布给公众3。文章发表在Virological.org(由爱丁堡大学[University of Edinburgh]的Andrew Rambaut管理的开放获取网站)和GenBank(由美国国立卫生研究院[NIH]管理的基因序列数据库)。GenBank是国际核苷酸序列数据库合作组织(International Nucleotide Sequence Database Collaboration,INSDC)的一部分,该组织还包括日本DNA数据库(DNA Data Bank of Japan)和欧洲核苷酸档案(European Nucleotide Archive)。测序结果还发布在全球共享流感数据倡议组织(Global Initiative on Sharing All Influenza Data,GISAID)数据库,这是一个最初为流感基因序列建立的存储库,现已扩展到包括其他病毒基因组。
多个存储库并存所带来的问题因以下两方面差异而加剧:提供数据所遵循的条款,以及管理数据后续使用、来源确认和将数据纳入下游应用、诊断、治疗或疫苗的规则(见表格)。
GISAID用户和贡献者受其数字访问协议(DAA)的约束,每个用户的身份经过验证,以便DAA条款可以被强制执行。根据该协议,用户不得将提交给GISAID的任何数据共享或发布到其他非GISAID服务器,也不得将GISAID数据和与SARS-CoV-2基因序列相关的任何其他数据库关联。他们必须注明其在出版物中使用的数据来源,并尽最大努力与原始实验室合作,让其科学家参与分析,并与他们合作开发从这些数据衍生出的产品,包括商业化产品。
Virological.org的服务条款规定,对网站的贡献是根据知识共享署名-非商业-类似分享3.0非移植许可(CC BY-NC-SA 3.0)进行授权,因此贡献材料的用户可以自由地以任何媒介或格式复制和重新发布,并可以通过转换或在其基础上构建的方式调整材料。使用数据的人必须给予数据提供者适当致谢。然而,这些数据不得用于商业目的。Virological .org将自己描述为一个论坛,尽管它扮演着数据共享的角色,类似于那些更正式地将自己定义为存储库的网站。
GenBank本身并没有对其存储数据的使用设立规则。它指出,“NCBI无法评估(知识产权和归属)声明的有效性……因此……不能就信息的使用、复制或发布提供评论或无限制许可……”4 因此,对GenBank的贡献实际上是不受监管的。
对于追踪可能出现流行和大流行的病原体的科学家和公共卫生机构而言,访问免费的非营利性存储库至关重要。储存库的多样性以及相互竞争和冲突的使用条款导致疫苗开发工具不够理想、在研发工作中的地方或区域代表性不足、诊断方法不能快速定制、也未针对病原体原始株或新变异株进行测试,以及基因组监测中的流行病学特征失衡和不具代表性5。
为防范和应对疫情,世界卫生组织(WHO)召开了共享数据会议,但未能提供统一的指导或解决方案。无论是2021年“具有大流行和流行潜力的病原体全球基因组监测战略”(2021 Global Genomic Surveillance Strategy for Pathogens with Pandemic and Epidemic Potential),还是最近发布的《WHO病原体基因组数据共享指导原则》(WHO Guiding Principles for Pathogen Genome Data Sharing),都没有就存储库及其规则或作用作出切实可行的决定。
当然,收集病原体样本并生成基因序列数据的研究人员的利益应该受到保护。这种保护包括确保其数据用户在发表结果或其他产出中对最初研究人员致谢。最初研究人员在进一步研究或分析合作中也有合法权益。新工具和解决方案将取决于存储库、政府、贡献者和用户之间的协调、多学科和跨界关系。如果汇总数据是数据共享事业的一项基本目标(就像存储库、政府和世卫组织建议的那样),那么不仅WHO原则应阐明这一目标,而且应为此目标协调多边努力。
几个关键步骤可以帮助解决目前全球病原体基因组序列数据共享系统和WHO方法中的弱点。首先,储存库可以相互签订正式的公共卫生使用协议。例如,INSDC存储库和GISAID之间的这种协议将使签署机构的工作人员更容易获得访问和汇总数据、分析和报告变异的许可。作为交换,签署机构应保证其工作人员不会在未经许可的情况下转移他人的存储库记录。NIH为生物样本转移制定的简单函件协议(Simple Letter Agreement)提供了模板,可在此基础上修改后用于上述目的。WHO可以创建和维护数据库所有者之间协议的存储库,并牵头协调和制定标准化、互操作性和共享规则。正在谈判的国际流行病协定可专门为这一任务提供财政支持。
其次,可以部署技术解决方案,以促进对数据贡献者的致谢,并将其标准化。INSDC模式包括能够进行归属和引用的唯一登记号;其他措施可以包括软件服务,使模板确认自动化,并创建对出版物和原始数据进行表彰的机制。出版商也在探索一些措施,以确保文章中所依赖数据的提供者得到致谢。我们的目标是使研究人员能够开放地访问聚合数据集,同时能够确定每部分的提交者。GISAID在积极制定访问和归属政策,但还可以为数据汇总提供更大便利。
最后,世界卫生大会(World Health Assembly)召集了一个政府间谈判机构,起草关于疾病大流行防范、准备和应对工作的公约、协定或其他文书。目前的草案只要求拥有病原体基因组数据的政府将它们上传到一个或多个自己选择的“公开数据库”。正如我们所指出的,核心问题不是政府拥有什么,而是研究人员拥有什么,以及他们共享材料的条款。因此,该协定可能为各国政府确立有意义的义务,即通过法律促进数据共享和使用。此类法律可能规定政府研究人员和公共卫生机构(可能还有接受政府资助的组织)共享这些数据,而且可能包括在某些权利和谅解的前提下,为此类共享提供资助。
目前,地方和国家数据系统没有连接,存储系统在不同规则下运行,相互冲突的政府优先事项可能会造成干扰。未来准备工作取决于数据系统之间的互操作性、更有效的数据使用、国际协调与合作以及关于归属和使用的明确、一致规则。
1. Armstrong GL, MacCannell DR, Taylor J, et al. Pathogen genomics in public health. N Engl J Med 2019;381:2569-2580.
2. Halabi S, Rourke M, Katz R. The effect of proprietary and attribution claims on data sharing during infectious disease emergencies. J Health Care Law Policy 2021;23:203-226.
3. Holmes EC. Novel 2019 coronavirus genome. Virological.org, January 10, 2020 (https://virological.org/t/novel-2019-coronavirus-genome/319).
4. National Institutes of Health. NCBI website and data usage policies and disclaimers (https://www.ncbi.nlm.nih.gov/home/about/policies/).
5. Joi P. Data-sharing in a pandemic: even though scientists shared more than ever, it still wasn't enough. Gavi, April 5, 2022 (https://www.gavi.org/vaccineswork/data-sharing-pandemic-even-though-scientists-shared-more-ever-it-still-wasnt-enough).
联系客服