0
回答
存储与计算分离:OSS构建表_+_计算引擎对接
华为云实践训练营,热门技术免费实践!>>>   

看到标题,可能有用户要问:OSS不是用来存图片、视频、及文件的吗,还可以在上面建表、数仓?计算效率和经济性表现怎么样?

本文先给出基本结论:

  • OSS是什么?

对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTful API,具备容量和处理的弹性扩展能力。

  • 基于OSS是否可以创建数据表?

既然可以把摄像头推流接到OSS,建表属于小Case了。并且2016年在亦龙大神的帮助下,Hadoop社区在官方版本中支持OSS,开启了阿里云存储与开源融合的新里程碑。

  • OSS上建表是否易用?

今天为了降低OSS上建表的门槛,日志服务(原SLS)LogHub可以支持OSS上表的实时写入(表类型包括TextFile,列存储Parquet),支持压缩及数据Partition配置。在计算引擎端,我们已经和阿里云(MaxCompute、E-MapReduce)和主流开源计算引擎(Presto等)打通,无缝使用多种计算引擎热插拔对接。

既然可以把数据表直接建在HDFS、MaxCompute(原ODPS)上,选择OSS来存储表数据又是为什么呢?

存储与计算分离的趋势

在2009年做大规模计算的核心词是“Locality”:让计算尽量靠近数据以提升效率。当时一个公认的模型是:构建一个足够大的资源池,把数据和计算融合在里面发挥规模效应。

但最近几年以来,生态和环境都悄然发生了一些变化:

  • 计算模式:全量数据计算模式,逐步被Impala、Presto等更高效计算模式赶上
  • 存储格式:ORC/Parquet/Kudu等列存、索引技术诞生,使得计算不需要Scan大块数据
  • 网络架构:25G网络开始上线,FPGA等技术也加快了网络体验
  • 存储介质:SSD、AliFlash、3D X-Point 大量混合技术使得存储可以“既快又猛”
  • 计算平台:GPU、FGPA、甚至是未来的TPU等改变计算形态

从这些变化使得我们发现:

通过一款机型通吃存储+计算方案,已经演变成存储+计算各自服务化,通过高速网络进行连接的趋势

1
这种方式可以使得存储、计算不用再被”机型“,”机柜“,”电力“等方案束缚,在各自最擅长的领域进行创新。从业界对于”分层“的工作中,我们也看到了这类的尝试:

案例1:Netflix 基于S3解决方案

Netflix是AWS创新代表,特别是他们的大数据业务。根据2016 Re:Invent上Slides描述,Netflix每天新增500 Billion条日志(数据量500 TB)、存量数仓规模 60PB、每天会对其中3PB数据做计算。

在Slides中Netflix谈到:从2014年开始就决定开始摒弃各种系统隔阂,底层使用了统一存储S3,之上构建各种计算引擎系统。事实证明Netflix这一步走得正确,海量的存储与计算能力使得商业的创新得到了充分释放,成为AWS上令人引以为傲的学习榜样。

2

受Netflix启发,AWS 在2016 Re:Invent 上推出了一款新的计算产品Athena:该产品将Presto服务化提供基于各种存储类服务的 Ad-Hoc Query能力。

AWS Athena利用多个可用区(Availability Zones)中的计算资源执行查询,并将S3用作底层数据存储系统,由于数据冗余地存储在多个地点和每个地点的多个设备中,服务具备很高的可用性和可靠性。

案例2:Facebook RocksDB项目

Google开源了Level DB,而Facebook通过改造成RocksDB使它上升到新高度。RocksDB除了对LSM模型的多个优化外,另一个非常吸引人的地方在对存储介质、计算层适配得非常友好,可以充分发挥计算和存储的性能。底层的介质与存储对上层API透明热插拔,是在软件设计层面存储+计算分离的一个优美案例。

3

OSS上建立数仓的优势

优势1:不受限制的存储空间

对于数据仓库来说最重要一点是海量存储,能为计算分析提供大数据吞吐支持。在这个点上OSS是非常合适的。

结合OSS的目录设置,对大规模(百万级别以上)文件做合理划分,并与计算引擎配合拿到更高的计算效率。LogHub投递OSS存储支持Hive-style分区目录,将数据按照日期存储,可以设置多维分区。

举个例子,我们有一个应用叫my-app,为应用创建一个dw项目 my-dw,在项目中创建了一组表,以其中一个表my-table作为例子:表中的数据以时间(天)作为partition(例如date='20170330' 代表当天的数据目录)。

整个数仓的层级结构可以映射为OSS的一个访问路径:

  • my-app 为 OSS 上bucket名称
  • my-dw 之后则为数仓的项目名(namespace)
  • my-table是表名
  • date=20170330是一维分区

4

优势2:极低的存储成本

OSS 是提供实时数据读写“最便宜”存储产品之一,对于100GB日志数据:

  1. 使用列存储编码(以Parquet格式为例),通过snappy压缩后,存储数据量在8 GB左右
  2. 以OSS当前官网价格计算,使用OSS存储一个月费用为 8 * 0.148 = 1.184 元
  3. 除此之外,OSS有两种根据访问频率可任意转换形态:IA(低频)、Archive(冷备),最低可以降低60%成本。OSS 与 IA,Archive之间数据模型是一致的,数据形态可以非常便捷的转换。

5

优势3:一份数据,对接多种计算引擎

我们可以将数据以一种通用的协议存储(例如textfile,sequence file或parquet等),目前OSS上数据支持如下计算引擎:

  • 开源:Spark、Presto、Druid,Pig,Hive等
  • 阿里云:MaxCompute,E-MapReduce、RDS

 

阅读全文请点击

<无标签>
举报
大大梁
发帖于6个月前 0回/64阅
顶部