DNA储存能否成为数据存储技术的未来?
随着互联网、物联网以及各类智能设施的发展,人类已经进入了一个数据呈爆炸式增长的时代。统计显示,目前全世界每天产生的邮件、照片、推文、视频等数字文件超过 250 万 Gb,全世界总数字文件高达 10 万亿 Gb。
这些数据大多被保存在数据中心里。一个存储量为 10 亿 Gb 的大型数据中心,占地可达数个足球场,建设和维护成本高达 10 亿美元。也就是说,光是储存这些海量数据,就需要花费巨大的空间及金钱成本。
巨大的消耗使得人类开始寻求新的方式,基于DNA的数据存储似乎是个“潜力股”。因为与其他大多数媒介相比,DNA提供了惊人的数据存储密度,而且相比传统数据存储,它具有高度稳定性,即DNA分子半衰期超过500年,低温条件下保存可达上千年。
1862年,格里高尔·孟德尔(Gregor Mendel:奥地利遗传学家)培育豌豆植物来研究遗传。百年后的1962年,詹姆斯·沃森(James Watson)、弗朗西斯·克里克(Frances Crick)和莫里斯·威尔金斯(Maurice Wilkins)因发现DNA结构而获得诺贝尔奖。
今天,这一领域的进步正蔓延到最不可能的地方。
随着我们进入生物技术的世纪,我们读写和编辑DNA的能力正在颠覆从人类健康到制造业的一切,下一个将要发生的颠覆可能是在数据存储领域。
微软首席研究员卡琳·斯特劳斯(Karin Strauss)表示:“想想把互联网上所有的信息压缩到一个鞋盒里。有了DNA数据存储,这是可能的。”
在谈论我们的话题之前,先来了解一下DNA是如何存储数据的原理本身并不复杂。
我们知道,电脑上存储的数据都是依据电压的高和低代表0和1来表示的,每一个数字、字符和标点符号都由唯一的一串01组合来构成。比如小写字母「e」的代码是:01100101,因此,任何数字化的内容(视频、图片、文字)本质上都只是一串串的0和1而已。
DNA存储的原理示意图,首先把英文字母转变成对应的01串,然后把这个0和1的数据串转变成由碱基A、C、G、T表示的DNA序列;编码的时候就是合成这个序列,解码的时候测序解读。
那么,DNA的存储原理实际上就是把原本这些用0和1来表示的内容,换成用碱基:A,C,G,T来表示,这是一个从数字信号到化学信号的过程。而且由于碱基有四个,相比起原本的0和1,我们可以用来多表示两个状态,比如,我们可以假设用A代表00,C代表01,G代表10,T代表11。一个本来要用8bit代表的字符用DNA编码的话,只需要用4个化学碱基,比如上面的小写字符「e」编码成为DNA序列就是:CGCC。
下图是哈佛大学医学院两年前做的一个事情,他们第一次利用这样的技术把这一张“奔跑的骏马”的Gif放进了活大肠杆菌的DNA里,而且还能重新测序并解码出来。
原始影像(左)和从DNA中提取还原的gif(右),除了部分稍有模糊,准确度达90%左右。
2016年的时候,华盛顿大学和微软研究院的团队,他们更进了一步,把莎士比亚的十四行诗、马丁·路德金的演讲原声、医学论文等资料共计739KB的数据编码成了DNA序列,并存储起来,这个技术以此为标记取得了巨大的进步。
我们回过头来看施特劳斯与华盛顿大学计算机科学与工程学教授路易斯·塞兹(Luis Ceze)合作,利用DNA进行数据存储和计算。
研究人员路易斯·塞兹和卡琳·斯特劳
利用人工合成的DNA分子,该团队成功地存储了超过1g的可读信息,包括各种形式的媒体,如古登堡计划(Project Gutenberg)的前100本书、高清OK Go音乐视频和#MemoriesInDNA计划。
DNA的信息密度是惊人的——仅仅一克就可以存储215PG,或2.15亿千兆字节的数据。具体来说,笔记本电脑的平均硬盘驱动器只能容纳这个数字的百万分之一。
施特劳斯说:“我们在分子水平上对所有数据进行编码,使其尽可能小,并将其存储在一种介质中,这种介质将持续相当长一段时间,不会像软盘那样过时,因为它与生命有着永恒的关联。”
近日,麻省理工学院(MIT)科学家研发出一种新型 DNA 存储技术,该技术可从大规模数据库中检索和标记 DNA 数据文件,实现了将数据存储为 DNA 形式的可能。
当地时间 6 月 10 日,相关论文发表在 Nature Materials 上,通讯作者是 MIT 生物工程学教授马克·巴斯(Mark Bathe),论文题为《在档案文件存储系统中使用布尔搜索的随机存取 DNA 存储器》。
这项研究意味着 照片、音频、文档和其他文件都可存储为 DNA 的形式,有望彻底改变人类存储数据的方式。
以 DNA 形式储存数据的灵感来自于包含遗传信息的 DNA 分子,该团队认为 DNA 分子有望以极高密度去存储大量数据信息。马克·巴斯表示,理论上一个咖啡杯即可存储全球所有的数据。
MIT 生物工程学教授马克·巴斯
据悉,DNA 的密度是闪存的 1000 倍,一旦制造出 DNA 聚合物,它就不会消耗任何能量,把 DNA 写下来之后,即可进行永久存储。
该团队表示,他们可将图像和文本页面编码为 DNA,但是要突破从众多 DNA 片段的混合物中挑选出所需文件,即检索功能的技术壁垒。
据悉,研究人员以 DNA 形式存储数据需要一种约 6 微米大的二氧化硅颗粒,然后把数据文件固定在二氧化硅颗粒中,接下来用短 DNA 序列对文件进行标记。其中,每个颗粒都标有与文件内容相对应的单链 DNA “条形码”。用这种方法能从最多 1020 张图像中准确提取出单个图像。
DNA存储结构和磁盘不同,它存储的密度极高,1克的DNA就能够存下天量的信息,如果要存下当前全世界的所有数据,更是只需要1千克左右的DNA就足够了!不需要成千上万个阿里巴巴或者AWS的数据中心,看起来还更加经济实惠,貌似一切都很美好……
但是,目前DNA存储要发展成为真正具有实际应用价值的东西,至少还需要解决以下几个问题:合成成本高、合成速度慢数据读取无法实时、数据随机读取仍需进一步解决。
不过总的来说,该研究突破了 DNA 存储技术的瓶颈,未来,随着DNA作为存储介质成本的下降,以及人类基因测序和相关技术的发展,或许DNA可以替代传统的硅基存储,成为新的数据存储方式。
- FIN -
往期精彩回顾
????学习机会在此,点击阅读原文购买图书。