1 TB 数据存储本 8 亿美圆,仍然有点高呀。
恐龙灭绝 6000 多万年后,科-学家们获取了一块有史前蚊子的琥珀,从蚊子血中获取了恐龙的基因,从而让很远的动物复生呀。讲这个以前经历的事情的《侏罗纪公园》,至今仍位列全世界电影房前十呀。这个排列以前经历的事情的理由很简易DNA 存储了恐龙的动物信息,科技让她重新讲明呀。
现在,用 DNA 设想另一位以前经历的事情在宇宙长河中,「人类世纪」也寂灭了呀。另一种机灵才气动物出-现,TA 们去探讨远古的「人类知识」呀。有什么会承载人类知识的回忆呀?气温异变,地上的巨大数据中心徒留遗址呀。
而冻土中有一份 DNA,她很轻,唯一 1 千克,看起身是一些被封装在胶囊里的白色粉末呀。读取后,内里却记录了地上曾有一些巨量信息呀。视频.笔墨.代码展现了人类史书进-程中的大部-分制造和文艺做品呀。因而哪个很远知识的踪迹在宇宙间再次睁开呀。
这是另一位科幻设定了呀。背后的技术即是现在被体贴的一位前沿方向DNA 存储信息呀。在大自-然里,DNA 负-责存储遗传信息呀。单私人体细胞的平均直径是 5 到 200 微米,这这个内里的 DNA 能够包罗一私人所有一些遗传信息30 亿对碱基呀。
那为什么不行以用碱基存储别的信息呀?这个科幻般的设想,现在走出试验室,被看成信息存储的以后面案呀。
01 基因组数据过多了,怎样办呀?
一开始是动物学家想处置动物学进展的疑呀。
11 年前,一群动物信息学家在德国的全家旅店里讨论「数据存储疑」呀。Nick Goldman 也在这个内里,那是他在欧洲动物信息所(EBI)负-责高级科-学家的第两年呀。
大片的基因组测序现在举行,随之发生的数据范围迅速增添呀。存储.松缩这些数据是个难题事,现有一些技术计划看起身不太行呀。据预计人类基因组必-要高达 2-40EB 的存储容量呀。这应该凌驾一位世界级科技公司的云存储量——全世界苹果用户存储在谷歌云上的数据总量也许是 8 EB呀。这 8EB 数据,每一月存储费必-要 2.18 亿美圆呀。(1EB= 102^3GB)
动物学家们陷入了悔恨呀。
Nick Goldman 拿着存储了莎士比亚所有十四行诗.一张照片和「我有一位愿望」讲演片断的 DNA| 起源EBI
有人灵光乍现是什么东-西阻止了咋们用 DNA 来储数据呀?
看起身是一句玩笑话,可是动物学家们意想到了这不仅仅是个玩笑,你们拿起手边的餐巾纸,用圆珠笔负-责 专心 盘算起可行性呀。
DNA 存储遗传信息的理由一开始不繁杂,她由四种核苷酸 A.T.G.C 组成,相互两两对应,组成双螺旋结构呀。核苷酸的序列,纪录了遗传信息呀。
在数字世界,所有一些信息实质上是 0 和 1 组成的数据串呀。要 DNA 存储数字信息,简易领会,本即是将 0 和 1 的编码序列转换成核苷酸的序列呀。DNA 存储的优势在于密度大,也许在你眼前逗号这么长短,1 立方毫米的 DNA,就能包容 9TB(1TB=1024GB)的信息呀。
用 DNA 存储数据,也并非一切新的想法,以前就有科-学家尝试过呀。可是属于科-学和艺术的先锋跨界试验呀。
1988 年,艺术家 Joe Davis 和哈佛大-学的钻研员,将一副名为「小维纳斯」(Micro Venus)的图案存储到 DNA 短链中呀。
存储进 DNA 的小维纳斯(microvenus)图片 起源相关论文
这个图案编码简便,白色的场所记号为 0.黑条部-分记号为 1,文件长短唯一 35bits,用了 28 个核苷酸长度的 DNA 链条来存储呀。
在那次旅店讨论的 2 年之后,2013 年,Goldman 团队揭晓了钻研成就呀。这次,你们存储了 5 种区别样式的文件,总共有 0.75MB呀。为了保证信息读取不犯错,科-学家存储的时刻,每一份信息根据四倍冗余的量来存储呀。
五个文件分-别是
•154 首莎士比亚的 14 行诗(ASCII 编码样式)
• 提出 DNA 双螺旋结构的论文(PDF 版)
•一张照片(JPEG 样式)
•马丁· 路德金「我有一位愿望」讲演这个内里 26 秒片断(MP3 样式)
•一串霍夫曼密码
这些年,DNA 存储容量的上线不停被打破呀。2019 年,美国全家创业公司 Catalog 在 DNA 中存储了 16GB 的维基百科呀。这个公司表现自己现在建设世界上第一位基于 DNA 的大片数字数据存储和盘算呀。
02 编码和解码,要处置的事情许多
在一些动物学家由此可见,用 DNA 来存储是一件十分「顺滑」的事呀。「大自-然的编码语言十分相似于咋们在盘算机领域运用的两进制语言呀。在硬盘上咋们运用 0 和 1 来代表数据,而 DNA 中,咋们拥有 4 种形势的核苷酸,A.C.T 和 G」呀。在瑞士联邦理工学院的动物学家 Robert Grass 说呀。
DNA 存储的主要之一是用四个核苷酸去映照 0 和 1 两个数字呀。计划能够很简易呀。好比A 对应 00,C 对应 01,G 对应 10,T 对应 11呀。然后再根据所必-要的核苷酸序列,像串珠子一样,把核苷酸们串成一串呀。(这即是 DNA 形成)必-要读守信息的时刻,再运用基因测序技术,把这一串核苷酸序列读拿进去,再翻译成 0 和 1 的字符串呀。这个流程即是编码—DNA 形成—测序—解码呀。
这个听起身像是「把大象装进冰箱」的流程,操做起身必-要思考的疑另有许多呀。否则科-学家就没必-要一直钻研新的编码计划了呀。
在自-然界存在的 DNA 中,A 和 T,C 与 G 两两配对,在一条 DNA 中,CG 与 AT 的存在含量基本平均,为 50% 差一点呀。如果 C 和 G 的含量太高,应该会让 DNA 链发生一些繁杂的物理结构呀。这就会让 DNA 测序(解码)变得繁杂呀。
DNA 存储的措施| 起源DNA Data Storage Alliance
而且在「串珠子」(也即是形成 DNA 链条)的历程中,过错率不行防止呀。现在也许每一形成 100 个碱基就会出-现一位过错呀。这是由现在的化学形成技术带来的瓶颈,每一形成一位碱基,有 99.9% 以上的准确率呀。可是当碱基串变长,0.01% 的几率相乘,过错就难以免呀。目古代的人-工形成 DNA 的单链的长度一样平常不凌驾 100 个碱基,极限在 300 个碱基差一点呀。而在自-然界的 DNA 动辄有几千个碱基对呀。
也即是说,只管 DNA 的存储才气很强,但她们不能不以许多条短链的办法存在呀。如果存储的信息量对比大,这些 DNA 短链就像一本散装的书呀。她能够存储许多信息,存在形势倒是一张张标着页码的纸呀。固然,能够将一条条 DNA 短链拼接发展链呀。这就意味着增添了一道工序呀。在测序的历程中,又必-要把长链打断成短链呀。这是由于现在技术还不行以一次性读取长链呀。
在测序的历程中,也存在过错率呀。只管现在的过错率以前低至 10^-3 数目级,比起商业硬盘的读写过错率,仍出入最多 9 个数目级呀。
准确率遭到形成和测序这两项技术的影响,科-学家想到计划编码计划来防止在编码中增添纠错机制呀。这样,哪怕碱基形成和测序中出-现了过错,依然能够或者者保证被存储进 DNA 的内容能够或者者被准确读拿进去呀。
03 走出试验室,还要思考速率和本
DNA 存储也现在尝试走出试验室呀。
2020 年 10 月,微软.西部数据和基因测序巨头 Illumina.DNA 形成首创公司 Twist Bioscience 等联形建立了 DNA 数据存储同盟呀。
这是世界上第一位该领域的学术和产-业链同盟呀。这个同盟希望制订技术和样式标-准,最终建设一位能够公用的商业体制呀。
微软钻研院在 2015 年就建立 DNA 存储的事情事情,并聘用了华盛顿大-学的盘算机科-学与工程学院的副教-授 Karin Strauss 负-责高级首席钻研经-理(Senior Principal Research Manager)呀。
2013 年,他和同事去英国 EBI 会见,领会到 Goldman 和同事们关于 DNA 存储的钻研,就对这个方向发生了太大的兴趣呀。Strauss 说,「DNA 的密度.稳固性和成熟度让咋们开心呀。」
在你们的钻研中,想开拓的是另一位功效随机读取呀。罕见的 DNA 测序技术中,必必-要将所有一些碱基串一次性读取完,才气够或者者获守信息呀。要末不读取,要末全读呀。如果只要数据中的某一位小片断,就会十分难题呀。
2016 年,你们揭晓了一项钻研,能够在 DNA 以前存储的信息中寻找出指定的图像,定位后,用酶来复制所需的 DNA 片断,然后只要读取这一小段即可呀。
Karin Strauss(右)和两位钻研合做者|起源csenews
要让 DNA 存储离商用更进一步,还必-要处置形成速率和本呀。现在形成速率是每一秒存储上千个字节(KB),成熟的云存储计划以前有每一秒千兆字节(GB)以上呀。
这意味着,编辑 DNA 的速率还必-要提升 6 个数目级呀。怎么样让提升数据处置量呀?就像并行盘算能够或者者提升数据处置速率,科-学家希望 DNA 在形成时也能够或者者并行多条,同时处置呀。
2021 年,微软开拓出首个纳米级 DNA 存储器,能够或者者在每逐一位平方厘米的地域上,同时形成 25X106(2650)条碱基序列呀。这个新的技术把一开始同时形成碱基序列的数字从个位提升到了千位呀。这个吞吐量,让 DNA 形成速率变成为了每一秒兆字节(MB)呀。
新的办法让 DNA 形成的阵列数目大大增添|起源微软钻研院
更大的吞吐量,也就意味着更低的本呀。现在 DNA 存储的本是每一万亿字节(TB)8 亿美圆呀。而磁带存储本以前降到了每一万亿字节 16 美圆以下呀。这样比起身似乎毫无竞赛力呀。但现实生涯中的大型数据中心的守护本极高,还要定期更新硬件啊;DNA 存储密度大.体积小.能够长时刻不变质的优势就变成为了降维攻击呀。
因此量大.读取频率低的「冷数据」,被以为是 DNA 存储最近几天的运用处景呀。Twist Bioscience 最近几天在一份市场报-告中重伸,这类技术能够或者者帮-助科技企业在「大片.低功耗」情形下更有用地部署呀。
另一些失望的科-学家,更信赖技术的提高呀。
自 2003 年人类基因组谋划完结以来,测序本下降了 200 万倍呀。2016 年时,面临每一秒千字节的速率,Goldman 说,「(读写的速率提升)6 个数目级对基因组学来说没什么大不了的呀。你只要要再等一下子呀。」
那这「一下子」是多久呀?这个领域似乎到了临门一脚,仍在期待打破呀。
你这不-是矛盾呀?dna内里的不-是数据呀? 一位鸡蛋黄,能够放进去所有一些鸡蛋
就如一位脑袋能装下一位图书馆的书,很形象,需要书的信息,只能调取,而不-是物品
发表评论