打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【业务交流】DNA存储技术及其在档案信息存储中应用的可能
userphoto

2023.04.16 重庆

关注

信息化时代的到来伴随着海量数据的产生,根据国际数据公司(IDC)预计,2025年全球的互联网数据量将增加到每年175ZB,华为发布的“全球产业展望GIV2025”亦预测,到2025年,全球年存储数据量将高达180ZB。显然,现在的数据存储容量难以满足需求,我们即将面临严峻的数据存储问题。

现代数据信息存储技术主要为磁存储和光存储,这些存储方式需要占用巨大的空间和维护能耗,同时存储媒介的保存时间相对有限,且经常面临数据丢失的风险。以硅为介质的硬盘更是面临着全球硅储备总量有限的难题。这些都将对数据存储的发展产生限制,科学家不得不探索多种数据存储技术,以降低数据存储成本,提高数据存储效能,DNA数据存储(DNA Data Storage)技术因其耐久性、大存储容量以及高体积密度而成为其中瞩目的一个方向。

DNA存储技术的概念

DNA存储技术就是以人工合成的DNA分子为存储介质,以4种碱基即腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)对信息进行编码,将信息存储于DNA分子上,同时用现有的生化实验方法,使DNA分子与各种生化酶进行生化反应,实现DNA分子的复制和DNA分子碱基的修改等操作,从而模拟存储器的数据读取和写入操作。其基本流程包括将数字信息编码成DNA序列(编码),将序列写入DNA分子(合成),通过物理调整并组织成文库进行长期存储(保存)、检索和选择性访问(随机访问),读取分子(测序)并将其转换回数字数据(解码)(如图1所示)。

图1 DNA编码技术流程

DNA存储技术的优势和瓶颈

与传统存储技术相比,DNA存储技术的优势主要包括以下几个方面:一是高存储密度,有研究推测,大约10kg的DNA分子就可满足2025年全球数据总量存储要求,所占体积与篮球大小相似;二是作为存储介质可在自然条件下长期稳定保存,DNA是一种非常稳定的分子,半衰期超过500年,低温条件下DNA可以保存上万年,一般情况下人工合成的DNA分子可以在特殊溶液中保存,也可制成冻干粉保存,将DNA封存在二氧化硅小球中可以避免其受到高温的影响发生降解,最新的技术可以将DNA保存在几何形状高度可控的磷酸钙纳米晶体中,我国在DNA体内存储的研究位于世界前列,现在已经实现了利用重组酶进行大肠杆菌细胞内数据存储和利用CRISPR-Cas体系进行DNA数据存储;三是易于复制,DNA可利用聚合酶链式反应(PCR)进行指数化复制,在很低的成本条件下显著提高了数据的复制效率。此外,存储在DNA中的数据可利用DNA杂交过程对其进行相似性搜索等操作;合成DNA信息存储的错误率被证明与硬盘驱动器相同,同时DNA数据存储具有耗能低的环保优势。综上,高存储密度和长期稳定保存是DNA作为存储介质最明显的两大优势。

DNA存储也存在技术瓶颈和应用中的实际问题。研究人员从编码、DNA合成、数据存储、数据读取等方面分析了该技术面临的多种挑战,笔者认为该技术的瓶颈问题主要集中在DNA合成技术和测序技术两个方面,即信息写入和信息读取两个步骤。编码方面,已经有研究显示能很好地控制编码后碱基序列的GC含量以及碱基连续重复,算法和加密方式也已经有很多可利用的成果。保存方面,不论是体外保存还是体内保存,都已有成功的保存案例。然而,DNA分子的合成和测序技术虽然在近年来发展迅猛,却仍面临实际应用的困难。化学合成法目前只能合成200nt以内的DNA序列,而且成本也十分高昂,有统计表明,假设每个碱基存储1byte的信息,而使用阵列(高通量)合成DNA的成本约为每碱基0.0001美元,存储1TB的信息至少需要8亿美元。相比之下,使用磁带存储同等数据规模的成本仅为16美元。以酶合成为基础的第三代DNA合成技术是降低成本的有效途径,但目前还处于发展初期,尚不能进行高通量平行DNA合成,其低通量方法也尚未进入实际应用。在DNA测序方面,效率是最大的问题,二代测序和三代测序满足了高通量的要求,但二代测序一轮需要数天时间,无法实现实时取读,三代测序目前错误率较高,而且两者的成本都有待降低。

国内外DNA存储技术研究现状

DNA存储技术是合成生物学中的一个方向,合成生物学因为其在生物经济领域的突出地位而得到越来越多的关注,相应的,一些瞩目的突破性的技术革新为DNA存储带来了更多机会。信息化技术和分子生物技术是DNA存储实现的两大支柱,生物技术为信息技术的发展开辟了新的道路,通过向生命系统学习和模拟,借鉴生物技术研究提供的新思路、新原理和新理论,推动信息技术的未来发展,是未来科研创新的一个重要方向。DNA存储技术就是信息技术与生物技术轮动发展的产物。

DNA作为存储介质的想法早在20世纪70年代就曾被提出,1988年首次证明可以将信息存储在DNA分子中。1995年,Baum提出了构建DNA存储器的模型,奠定了DNA存储技术研究的基础。进入21世纪,该领域吸引了更多研究者的注意,2012年,哈佛大学的Church团队尝试将一本约有5.34万个单词的书籍和11张图片及一段JavaScript程序,编码到不足一沙克(亿万分之一克)的DNA微芯片中;2013年,欧洲生物信息学研究所的Goldman等人在DNA中存储了739KB的五种文件(文本、PDF、照片、MP3和霍夫曼编码)。这两项研究实现了多种数据、高容量的DNA数据存储,将DNA数据存储领域向前推进了一大步。Goldman等人通过设计更为复杂的加密系统对部分重叠的字符串数据进行编码,使用没有同聚体(连续2个以上相同碱基)的DNA序列编码文件,减少了同聚体序列导致的测序中可能产生的错误。2016年,微软公司和华盛顿大学研究人员合作将《战争与和平》等100部经典文学作品约200MB的数据成功地“写”入DNA分子中,且在从DNA池中读取数据的测序过程中,没有出现任何错误。2017年,哥伦比亚大学和纽约基因组中心的Erlich等人发明了“水滴”储存法,利用他们设计的DNA喷泉算法(有容错纠错机制),将二进制字符串(喷泉)随机包装成“水滴”(即数据包),每个“水滴”中的0和1映射DNA的4种碱基(A、G、C、T)上,通过这种方法能使每个核苷酸编码1.6byte的数据,合成的文件中也无任何错误。同年,哈佛大学的Church团队利用CRISPR-Cas系统将一张黑白图像和一部短的视频文件“写入”大肠杆菌的基因组中,随着大肠杆菌的繁殖,完成信息的存储与复制,信息的准确度高达90%,这意味着利用活体细胞可以实现数据的存储和复制。2019年,Erlich团队将喷泉码编码的信息包裹入3D打印材料中,打印出了一只存有遗传信息的“斯坦福兔子”;同年,微软与华盛顿大学结合第三代测序技术,开发出了自动化DNA存储的系统。2021年,麻省理工学院的Bathe团队开发了应用于DNA存储数据随机读取的快速检索系统。近6年来,DNA存储容量大大增加,并呈现指数级的增长趋势,使得利用DNA作为存储介质的实际信息存储密度不断接近其理论值(如图2所示)。

图2 DNA和传统介质的信息储存密度

总结在世界范围内DNA存储技术研究的进展,美国在该领域内投入的研究力量占据世界领先位置,其产出成果数量约是中国的2倍。该领域论文的产出量在2004—2006年出现了小高峰,此间重要的成果集中涉及编码转制软件、DNA数据安全加密等方面,但是由于当时合成生物分子技术的限制DNA存储研究陷入瓶颈期,直到2015年左右重新开始迅速增长。我国的第一个相关技术专利出现在2015年,此后清华大学的戴俊彪课题组在2016年建立了生物体存储的一种“数据—DNA”编码方法。深圳华大生命科学研究院在2018年开发了“阴阳”双编码方法,能够控制输出DNA的GC含量、最长单碱基重复长度以及二级结构自由能,使其都在指定范围内。天津大学齐浩课题组在2020年构建了携带不同短链信息片段质粒的大肠杆菌分布式混菌存储系统,将445KB的数字文件储存在2304Kbps的合成DNA中,实现了目前在体内的最大规模信息存储;同年,该课题组将携带数据信息的DNA原始文库固定在磁珠上,通过使用等温的链置换扩增技术,对大型DNA文库进行低偏好性、稳定重复的扩增,实现了数据的稳定可重复性读取。2021年,深圳华大生命科学研究院开发了一个集成了多种编码方法的评估平台Chamaeleo;深圳先进技术研究院戴俊彪、王洋课题组提出了适用于DNA存储的自包含自解释系统;清华大学朱听课题组利用手性DNA抗降解的特性,开发了一套高稳定性的DNA存储流程;天津大学元英进课题组通过体内组装,对编码的254886bp的人工染色体进行一次写入,实现了稳定的复制和多次检索;中国科学院北京基因组研究所(国家生物信息中心)提出了DNA活字存储系统和方法,构建出内容活字实物库以及索引活字实物库,且能够一次合成,多次使用,大大降低成本;清华大学的刘凯等开发了基于CRISPR-Cas12a-λRed体系的随机重写DNA信息的存储方法。这些研究成果表明我国在该领域研究正在逐渐由竞跑地位发展到领跑地位。

从美国在DNA存储技术的投入来看,市场对该技术有很强的信心。微软和美光科技公司(顶级内存制造商)是学界以外对该技术投入最多的两个企业,尤其是微软研究所,其与华盛顿大学信息系统实验室的合作成果不断地展示了DNA总存储容量的显著飞跃。苹果、Facebook、谷歌、英特尔和IBM等也在探索将DNA作为数据存储介质。我国向来重视信息技术的战略性、前瞻性研究。信息技术已深入涉及各个行业与领域,一旦信息技术领域出现颠覆性技术,将对国家科技创新以及产业带来巨大影响。生命体是人类科技创新的源泉,生物启发的信息技术将十分有应用前景。因此,我们应在DNA存储技术领域及早布局,找准突破口,抓住关键问题,扬长避短,尽早掌握话语权。

DNA存储技术应用于

档案信息存储中的可能性

DNA存储作为新兴技术,在海量数据存储、机密数据存储与传递中具有巨大应用前景。现阶段DNA存储技术主要适用于存储期限较长,又无须频繁读取的信息。博物馆、档案馆、电影公司等各类型长期信息储存机构是目前DNA存储技术最重要的出口。

在档案行业,除了纸质档案和实体档案,目前的数据存储多有赖于光盘和磁带。光存储具有长期存储的优势,但是其容量有限,磁存储的容量大于光盘,但是其受制于运动部件,仪器依赖程度高,而且仪器间的兼容性不佳,半导体存储技术存取速度快、存储容量大,但工作温度范围相对受限,且数据保存期限短。与现有的存储介质相比较,DNA可长久保存数据;不过度依赖仪器;不存在断电丢失数据问题;存放程序和数据的存储器可以快速备份和交流;抗电磁干扰能力强(因分子信息通路不靠电信号控制逻辑开关,所以不受电磁干扰的影响);具有信息相联检索,数据快速访问性(由于DNA分子改变状态是以μs计算,而且可以基于内容快速检索,而不受数据库大小的限制,因此检索可以达到很快的速度)。

实际上,DNA存储技术对档案信息存储最大的意义在于实现对数据的长期稳定离线保存,这与DNA存储技术最初的用途不谋而合—将不经常使用的数据,或是必须进行远距离物理传输的大量数据进行“冷”存档存储。此外,DNA分子合成“只写一次”并可限制其碱基修饰的特点可以确保档案信息的真实性,既能够实现“写一次读多次”的目的。

前沿技术研发和关键核心技术的攻关离不开政策支持和技术实践出口,国家档案局2022年审核通过了包括“DNA存储技术应用于档案信息存储流程构建与实践的探索研究”在内的多项前沿学科探索性科技项目,正是档案行业提升科技创新对高质量发展的引领支撑能力的举措。事实上,对DNA存储相关技术进行技术研究与战略布局,对历史重要资料的备份进行应用示范,有助于我国在该领域实现技术突破,在存储技术的国际竞争中占领制高点,且DNA存储在信息长期存储、数据归档等方面亦具有国家战略意义。

参考文献:

[1]崔光照,刘玉琳,张勋才.数据存储新方向:DNA分子存储技术[J].计算机工程与应用,2006(26).

[2]刘晓,熊燕.DNA数据存储的现在和未来[J].合成生物学快讯,2019(9).

[3]毕昆,顾万君,陆祖宏.DNA存储中的编码技术[J].生物信息学,2020(2).

[4]许鹏,方刚,石晓龙,等.DNA存储及其研究进展[J].电子与信息学报,2020(6).

[5]周廷尧,罗源,蒋兴宇.DNA数据存储:保存策略与数据加密[J].合成生物学,2021(3).

[6]黄小罗,戴俊彪.人工DNA合成技术:DNA数据存储的基石[J].合成生物学, 2021(3).

[7]强薇,沈玥,戴俊彪.DNA信息存储的机遇与挑战[J].生命科学,2021(12).

作者单位:国家档案局科研所

文章来源:《中国档案》杂志2022年第7期

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
DNA数字信息存储的研究进展
“穿孔卡”DNA可能意味着更便宜的大容量数据存储
科学家团队升级DNA扩展字母表,称可提供DNA存储数据密度2倍提升,业内人士:DNA存储或可在10年内实现市场化
为什么不用DNA存储海量数据?
一个咖啡杯装下全世界的数据,DNA存储芯片神奇在哪?
DNA存储,拯救人类数据危机的良方?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服