2023年40篇(共390篇)原创文章
4月末,有幸收到元英进院士的邀请,到天津参加京津冀DNA存储前沿研讨会。本篇写点干货,来自元老师的DNA数字信息存储,结合自己的认知和搜索的资料,形成笔记。行文过程中得到元老师亲自指导,他非常认真,我受益匪浅,万分感激。如有错漏之处,还是我个人的学识浅薄所致,文责自负,敬请指正。报告内容很丰富,我拆分成上、中、下三篇分享给大家。文中未标注图片,均来自元老师的PPT。
希望能让更多的学界、政界、产业界的朋友,了解DNA存储的巨大潜力,一同克服挑战,提升我国生物领域的技术。DNA存储是以人工合成的脱氧核糖核酸(DNA)分子为存储介质,将数字信息存储于DNA分子上。
DNA由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)4个碱基构成双螺旋结构,可以保存生物体的遗传信息。
在数字世界,数据信息都会转换为二进制数据即“0”和“1”的状态来进行存储。
因此,DNA存储的基本原理是:
数据文件通过编码转到碱基中,将AGCT转化为二进制数据来实现信息的存储,再配合各种算法便可以实现数据的存储与读取。
人类产生的海量数据,需要存储和处理,面临很大的挑战。
一方面数据中心的建设成本高,占地面积和体积蔚为可观。
同时,基于AI的数据应用风起云涌。中美双方必然形成角力。在两国竞争态势愈演愈烈的情况下,中美必然大力发展各自的数字经济。据IDC预测,全球数据圈(每年被创建、采集或复制的数据体量)将从 2018年的32ZB增至2025年的175ZB,增幅超过5倍。2018年,中国数据圈占全球数据圈的比例为23.4%,即7.6ZB;预计到2025年将增至48.6ZB,占全球数据圈的27.8%,中国将成为全球最大的数据圈。换言之,到2025年,中国48ZB的数据如果需要全部存储的话,所需要的EB级数据中心,将超过45000个。根据推算,这么多的数据中心的占地面积将超过31亿平方米,1年的存储成本4.5万亿美金(2022年中国GDP为18万亿美金)。2020年数据中心耗电量大于2000亿千瓦时,超过三峡大坝一年的发电量。微软从2014年开始建设水下数据中心,希望降低能耗。并在2020年9月,把海底试运行两年的数据中心从海床上捞回来。但是依然面临着:数据中心大型容器内部的干燥问题、海水如何高效冷却服务器的最佳方法,以及水下容器上的海洋生物附着和腐蚀问题,等等。
因此,海底数据中心还处于科学实验向商业化应用的迈进过程中。面对数据存储的挑战,合成生物领域的科学家也在进行着基础研究。
一方面,基因测序成本的大幅下降,为DNA存储的成本下降,带来可能性。但另一方面,基因组等的合成,仍面临通量以及成本的极大挑战。在研究过程中,科研人员发现工程细胞能够实现的功能非常丰富,人类对此知之甚少。
同时,半导体产业的工程理念也给予了科研人员以启发,不断开发合成生物领域的新工具。例如,秉承着“让生物更容易工程化(Make Biology Easier to Engineer)”这个使命和愿景的Ginkgo,不断取得成绩。·摩尔定律遭遇技术上的发展极限,功耗也面临极限;
·小尺度的半导体加工工艺遭遇了技术瓶颈,成本极高;
·投资巨大的半导体产业链需扩大应用领域,支持持续投资。
·基因组等合成仍面临通量以及成本的极大挑战;
·工程细胞能实现的功能仍需要进一步的扩展;
·合成生物学借助半导体产业工程理念,开发新工具系列。
两个领域的跨界交叉融合,产生“半导体合成生物学”的新概念:·生命的信息处理属性被不断挖掘,其小尺度、低功耗的特性吸引半导体领域进行仿生设计;
·半导体技术应用于高通量DNA测序、DNA合成、生物检测等。
跨界研究形成DNA数据存储的解决方案,一方面应对数据存储的挑战,另一方面推动合成生物学的发展。从图中的时间轴可以看到,中美两国对于DNA存储发展的预见性较为一致,起步时间相近。相比较而言,美国在信息处理、微纳加工、半导体器件等领域具有国际比较优势,近年来最先提出了“半导体合成生物学”的概念。“DNA 数据存储”是“半导体合成生物学”关注的重要研究方向之一,也是现阶段被认为最有可能率先大规模应用的方向。事实上,从20世纪60年代,美国就提出了DNA存储的概念,并作出科研尝试。(图片来源:【行研】DNA数据存储技术综述)尽管DNA存储的商业化路径还较为漫长,但美国情报高级研究项目活动(IARPA)依然着力推动分子信息存储计划(Molecular Information Storage, MIST),目标是:确保美国的领先优势。IARPA计划经理David Markowitz表示:“MIST计划是数据存储的登月计划,旨在开发使我们能够将EB级数据仓库缩减到台式机尺寸的技术,同时还可以大幅度降低运营和维护成本。”
“对于政府和行业中的大数据利益相关者来说,这将是一种革命性的能力。”
如果成功,MIST将开发出能够同时向合成DNA介质写入数据和从中读取数据的新型设备。目标是在三到五年内使该技术在商业上可行。
因此,该计划最新关注:实用化数据归档存储场景和系列化核心技术指标。中国在“BT+IT”的DNA存储领域,也在紧追不舍。例如,《第十四个五年规划和2035年远景目标纲要》就明确指出:
要加快布局量子计算、量子通信、神经芯片、DNA存储等前沿技术,加强信息科学与生命科学、材料等基础学科的交叉创新,支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务。但相对于美国,我国在DNA存储方面的发展步伐还是略显保守。希望以此文,引起更多的学界、商界、政界朋友,关注DNA存储领域。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。