直接在 DNA 上执行 SQL 操作,已通过 PostgreSQL 验证

h4cd
 h4cd
发布于 2019年07月24日
收藏 18

法国通信系统工程师学校与研究中心(Eurecom)数据科学系助理教授 Appuswamy 和伦敦帝国理工学院 SCALE 实验室负责人 Heinis 等人近期发表了一篇关于在 DBMS 存储层操作 DNA 的论文《OligoArchive: Using DNA in the DBMS storage hierarchy》。

论文研究了在数据库存储层次结构中集成 DNA 的问题。更具体地,其提出了以下两个问题:

  • 数据库经验如何帮助优化 DNA 编码和解码?
  • 生化机制如何应用于对 DNA 操作进行体外、近数据的 SQL 查询处理?

为了回答这两个问题,该研究引入了一个叫 OligoArchive 的架构,这是一种使用基于 DNA 的存储系统作为关系数据库归档层的架构。

DNA 的存储系统简单讲也就是指基于 ATCG 这些碱基所组成的一套存储信息的方案,类比 0/1 二进制,这种存储系统具有四进制。用 DNA 作为存储介质,优势是容量大与存储时间长,有数据指出 1 克 DNA 能够存储大约 2 拍字节,相当于大约 300 万张 CD;同时用 DNA 存储数据保存时间可能长达数千年;此外与硬盘、磁带等存储介质不同,DNA 不需要经常维护,而且在读取方式上,DNA 存储不涉及兼容性问题。

天然存在的 DNA 是有两条核苷酸链的双螺旋结构,而用于数据存储的 DNA 是单链核苷酸序列,又叫寡核苷酸(oligo),它是使用每次一个核苷酸来组装 DNA 的化学过程合成的。

OligoArchive 架构通过将基于磁带的归档层替换为基于 DNA 的归档层来改变 DBMS 存储层次结构,论文具体介绍了数据库引擎和 DNA 存储设备之间的分工,以及 DNA 存储设备应在 OligoArchive 中使用的接口。

数据库与 DNA 存储分工是这样的:数据库系统执行关系数据和寡核苷酸序列之间的转换。在 put 操作期间,DNA 存储系统合成 DNA 链并将它们存储在库中;在 get 操作期间,对 DNA 链进行测序并将读数返回。

研究人员通过为 PostgreSQL 构建归档和恢复工具(pg_oligo_dump 与 pg_oligo_restore)证明 OligoArchive 可以在实践中实现,这些工具执行模式识别编码和解码 DNA 上的关系数据,并使用这些工具将 12KB TPC-H 数据库归档到 DNA,进行体外计算,并将其恢复。

论文中的实验表明,使用合成 DNA 存档和恢复数据不仅可行,而且还可以利用数据库知识经验优化 DNA 编码和解码过程,甚至直接在 DNA 上执行 SQL 操作

具体内容查看论文:

http://cidrdb.org/cidr2019/papers/p98-appuswamy-cidr19.pdf

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:直接在 DNA 上执行 SQL 操作,已通过 PostgreSQL 验证
加载中

精彩评论

NickWilde
NickWilde
use DNA;
select <some one's son DNA> from laowang;
+---------------------+---------------------+
| name | relationship |
+---------------------+---------------------+
| xxxxx | son |
+---------------------+---------------------+
写代码的王师傅
亲,现在就可以
稷山蓝冰
2013年1月下旬,英国科学家最近宣布了一项突破性的研究成果,他们将DNA带入了一个革命性的数据存储时代,只需手掌般大小的人造DNA,便可容纳全世界高达30亿TB的数据。研究所的团队已经在几乎不可见的微量DNA中储存了154首莎士比亚十四行诗、一张照片、一篇PDF的科学论文和美国民权领袖马丁·路德·金“我有一个梦想”的演讲片段。要想读取这些内容可以通过DNA测序,使其转换成计算机编码即可。
稷山蓝冰
这篇的意思应该是使用DNA作为存储介质,也就是说使用生物质材料来替换传统的磁盘存储信息
龙影
龙影
那还有啥理由不用PG呢?

最新评论(19

Dandelion_
Dandelion_
生物工程与计算机技术的深度结合🤓
NickWilde
NickWilde
use DNA;
select <some one's son DNA> from laowang;
+---------------------+---------------------+
| name | relationship |
+---------------------+---------------------+
| xxxxx | son |
+---------------------+---------------------+
稷山蓝冰
这篇的意思应该是使用DNA作为存储介质,也就是说使用生物质材料来替换传统的磁盘存储信息
四十大盗与阿里巴巴
四十大盗与阿里巴巴
损耗性怎么样?
稷山蓝冰
损耗性和存储时间要远远优于现在的磁性材料存储,毕竟现在还有数万年以前的猛犸象的DNA存储下来。存储容量方面DNA4个碱基的组合为四进制比二进制会大很多。现在的问题是存取速度太慢
四十大盗与阿里巴巴
四十大盗与阿里巴巴
除了会讲牛逼,还有哪个大神能做更深入的解释。
稷山蓝冰
2013年1月下旬,英国科学家最近宣布了一项突破性的研究成果,他们将DNA带入了一个革命性的数据存储时代,只需手掌般大小的人造DNA,便可容纳全世界高达30亿TB的数据。研究所的团队已经在几乎不可见的微量DNA中储存了154首莎士比亚十四行诗、一张照片、一篇PDF的科学论文和美国民权领袖马丁·路德·金“我有一个梦想”的演讲片段。要想读取这些内容可以通过DNA测序,使其转换成计算机编码即可。
壹城
壹城
以后是不是可以根据DNA查近亲关系?
写代码的王师傅
亲,现在就可以
壹城
壹城
以后是不是可以用PGSQL根据DNA查近亲关系?
写代码的王师傅
可以,先在你背上纹个键盘输入
壹城
壹城
哈哈哈,快回去写代码吧!
Tinian
Tinian
学术和商业的结合
龙影
龙影
那还有啥理由不用PG呢?
阿信sxq
阿信sxq
细思极恐
木有龙井茶
木有龙井茶
牛逼啊
h
heike07
DNA都能查了 233
返回顶部
顶部