打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
DNA存储 | BT与IT融合的黑科技与未来产业
数字生命健康产业创新服务
基因慧

伴随深海深空、产业互联网、大规模健康队列研究的需求,目前的存储介质即将无法满足数据生产需求,DNA存储技术适时出现。2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。恰逢“DNA数据存储”前沿论坛举办,基因慧基于会议内容总结如下。更多详情敬请关注即将发布的《DNA存储蓝皮书》,欢迎储存/算法/IT/通信/合成等机构参与合作。

文章 | 基因慧  编辑 | Kathy 审核 | Mark

关键词 | DNA存储


大数据需求推动DNA存储发展     

图1 The World Keeps Creating More Data

(来源/IDC)

2021年,据IDC预测,2020年到2025年,全球数据量每年增加23%,而2025年全球数据量将达到180 ZB(1ZB=1024EB,1EB相当于一部可以播放36,000年的高清视频)。根据与会专家病毒所刘翟研究员演讲,有97%的数据由于存储技术和存储规模的限制而无法被保存。

因此”互联网数据中心(IDC)技术转型,以及超高密度存储技术代表着未来的方向“。

而目前数据存储介质已经无法适配目前便捷、大规模的数据生产,主要包括:

  • 市场缺乏信息密度更高的存储介质;

  • 数据存储的能源利用率低,消耗能源偏高;

  • 存储介质的使用年限较短,抗干扰性弱;

  • ……

DNA存储是什么? 

DNA存储定义

DNA存储技术,是基于组成DNA的四种碱基(A、C、G、T)来映射0和1,通过信息编码来进行存储。

相对传统介质(如硬盘),DNA存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此DNA存储极其稳定、存储密度高且可以超长期存储。

图2 DNA存储领域进入快速发展阶段(徐讯 研究员)

(来源/“DNA数据存储”前沿论坛)

尽管DNA存储刚刚进入国人视野,但是早在1965年,其概念就已萌芽;2012年,DNA存储原理验证实现重大突破,紧接着霍夫曼算法、DNA喷泉码等算法的开发以及微软、华盛顿大学等机构的参与,快速推动了DNA存储的技术研发。

DNA存储主要包含6个步骤:编码、合成、存储、检索、测序、解码。

DNA存储核心技术——编码

其中,编码、合成及测序为DNA存储的核心技术,重难点是编码与合成,载体包括电化学芯片设计等

DNA编码的本质是将代表的信息原始数据1和0转换成组成DNA分子的碱基序列的过程。其中,碱基指腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和胸腺嘧啶(T),是核酸的主要成分,他们在DNA分子内以互补配对原则稳定存在。

图3 DNA数据存储使用的四种转码方法举例

(来源/GigaScience

DNA编码方法有很多种,以George Church早期最简单的模式为例,将00分配给A,将01分配给T,将10分配给G,将11分配给C。使用这种编码方案,数字串0110110010将由碱基TGCAG编码并合成。

目前,DNA编码算法有Spiderweb算法、四进制Huffman直接编码法等;编码系统有:华大的YYC双阴阳编码系统、中科碳元的“悟空编码系统等。

DNA存储核心技术——DNA合成

DNA合成是DNA存储重要步骤之一,合成方法有三种:

  • 化学合成法(固相亚磷酰胺化学法);

  • 酶促合成法;

  • 微阵列DNA合成法。

图4 DNA人工合成技术(谢思佳 资深工程师)

(来源/“DNA数据存储”前沿论坛)

近年来,市场正逐步开发支持化学合成DNA的新工具和技术,例如电化学芯片合成法、喷墨打印合成法、微流体系统和数字光刻技术等,这些新工具和技术决定了合成序列的长度、生产速度和成本等。

DNA存储核心技术——DNA测序

DNA测序是读出数据的重要步骤,随着不同技术的迭代,目前市场上主流测序技术有Sanger测序、Ion Terrent电化学测序、可逆末端终止测序、联合探针锚定聚合测序、纳米孔单分子测序等。

不同测序技术有其优劣势,目前以Illumina、MGI、Thermo Fisher三家厂商的NGS测序仪;纳米孔单分子测序仪方面以PacBio和Nanopore为主,国内的齐碳科技明年即将量产。

DNA存储核心技术——解码

DNA解码与编码相对应,部分技术中需要检索。原理如下(以化学合成为例):

  • 首先,采用算法将信息字节转换成为DNA序列;然后机器合成DNA序列, 产生多个序列拷贝。以磷酰胺为基础的固相柱上合成或固相介质上阵列合成,合成后的 DNA 材料可以克隆、并存储在生物细胞内(体内)或者体外(更常见);


  • 其次,通过检索选择目标DNA,再使用映射到编码过程中所生成特定数据项的引物和PCR扩增,获得目标DNA,再通过测序仪获取DNA对应的序列;


  • 最后,通过映射规则将序列转码成原始的0和1字节信息。

DNA存储的应用和产业培育   

由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA存储能够真正实现BT与IT的融合,其中BT包括分子材料、分子诊断、基因治疗、生物安全等;IT包括通信、存储、算法、DNA计算等。因此被相关专家认为是变革性技术之一。

DNA存储的应用还在早期,但是由于以上技术特点,以及BT和IT领域的融合,有极其广阔的应用空间。根据与会专家病毒所刘翟研究员介绍,包括:

  • 新型IDC模式;

  • 新型数据信息加密;

  • 实体化标签(精准医学的溯源与信息标签);

  • 信息保护及保密;

  • ……

尽管应用还在早期,但是随着头部IT及BT机构的参与,以及近年来技术(主要是编码技术以及合成技术)迭代,产业方面正在快速孕育。

国内DNA初创机构中科碳元获得千万元投资,2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。

DNA存储的发展趋势      

由于DNA存储技术发展尚在早期,仍有很多问题未解决,根据与会专家清华大学汪小我教授介绍,包括:

  • 噪声来源多样;

  • 数据访问难;

  • 读写成本高;

  • ......

其中,成本高是最核心的难点,也是影响产业发展的关键。短期是合成成本,与会专家提供的建议仿造NGS思路提高并行化和试剂研发。长期是算力成本,需要算法设计和资源投入,当然包括芯片设计,需要分布走(根据北大钱珑助理研究员、华大生命科学研究院徐讯研究员等与会专家观点):

  • 开发高效的底层生化技术(合成、测序),进一步降低成本;

  • 深入研究物理层信道编码;特别是信息纠错;

  • 数据结构与数据库设计;

  • 可稳定存储大规模数据存储体系;

  • 基于DNA链计算的数据调控功能,例如基因编辑工具的自动存储于更改;

  • 开放工业标准;

  • ……

20年间,DNA测序经历了7个数量级的成本降低,正快速应用于医疗服务和新药研发等方面。与会专家表示,DNA合成技术降低5-8个数量级,将从根本上推动DNA存储的转化应用;当然,还需加以信息编码、信道、算力等方面的共同协力,将科学家的梦想照进未来数字技术的现实,展现国际竞争力。

由于能力和篇幅局限,以上信息有所不足的地方敬请指正补充。我们将收录到即将发布的《DNA存储蓝皮书》,欢迎存储、算法、IT、通信、合成等相关企业参与蓝皮书合作。

同时,欢迎大家在评论区提出对DNA存储的需求及趋势展望,精选留言者将有机会获得将在今年发布的《2022基因行业蓝皮书》纸质版一本。

(注:以上内容未经与会专家审核,仅供学习参考。)



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
华大团队开发DNA存储转码评估系统,集6大算法,已开源运行丨专访沈玥
万物皆硬盘!一只“兔子”实证DNA存储无所不在,中国已列为重点专项
DNA数字信息存储的研究进展
DNA存储,拯救人类数据危机的良方?
Nature Computational Science:我国科学家提出DNA信息存储阴阳双编码新方法
【业务交流】DNA存储技术及其在档案信息存储中应用的可能
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服