高手问答第 284 期 —— 为什么说存算分离是大数据平台的未来

OSC哒哒 发布于 2022/06/09 00:09
阅读 7K+
收藏 13

【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”

随着累积的数据量的增大,大数据业务量的增多,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大。同时,大数据处理组件多,不同组件使用不同的数据处理格式,比如大家熟悉的数据湖、数据仓库使用的就是不同的格式,多样化的数据格式导致数据存储变得复杂,系统中应对不同的场景,往往同样的数据需要存储多份,不同组件之间还需要大量的数据拷贝和格式转换,消耗大量的资源。

在当前越来越强调云原生的环境下,存储计算分离已经是大势所趋。传统基于 HDFS 的大数据平台架构在云上已经不太适合,随着数据量的增长 HDFS 的高运维成本问题也会逐渐凸显。同时由于对象存储并不是一个完备的文件系统(比如无法原子重命名目录、list 目录性能差等),无法完整替代 HDFS,Hadoop 社区为了支持对象存储用了很多折衷方案来实现,但是实际效果并不好。

JuiceFS 是一款开源分布式文件系统,创新地将对象存储作为底层存储介质,实现了存储空间的无限扩展。任何存入 JuiceFS 的文件都会按照特定规则被拆分成固定大小的数据块保存在对象存储,数据块的元数据则保存在 Redis、MySQL、TiKV 等数据库中。同时 JuiceFS 的 Hadoop Java SDK 完全兼容 HDFS API,提供完整的文件系统特性,大数据组件可以无缝从 HDFS 迁移到 JuiceFS。

本期高手问答 6 月 9 日 - 6 月 15 日,我们邀请到Juicedata 技术专家@高昌健,和大家一起探讨关于存算分离架构下的大数据存储系统选型相关的问题。

可讨论的问题包括但不限于:

  • 存算架构的发展历程
  • 大数据平台的架构设计
  • 数据湖、湖仓一体架构设计
  • 存算分离的优缺点
  • HDFS、对象存储、JuiceFS 等存储系统的特性比较

嘉宾介绍:

高昌健

十年互联网行业从业经历,曾在知乎、即刻、小红书多个团队担任架构师职位,专注于分布式系统、大数据、AI 领域的技术研究。现在 Juicedata 担任技术专家,参与建设 JuiceFS 开源社区。

为了鼓励踊跃提问,@Juicedata   会在问答结束后从提问者中抽取 5 名幸运用户赠予 JuiceFS 定制搪瓷杯一个 

up-a2638d28623d593b95163f22c5871770d1b.png

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就相关问题向@高昌健老师提问,直接回帖提问即可。

加载中
0
yaosaya
yaosaya

高手问答第 284 期 —— 为什么说存算分离是大数据平台的未来

@pyboy58 @渔民小镇 @highsense @fightingAllTheDay @子矜

恭喜以上五位网友分别获得JuiceFS 定制搪瓷杯一个 

请于6月27日前登陆账号, 私信  @yaosaya   告知快递信息(格式:姓名+电话+地址)

highsense
highsense
贵app的私信服务好像挂了
南方Go
南方Go
私信发不了地址信息
1
渔民小镇
渔民小镇

@Juicedata
1 可理解成大数据平台未来一定是存算分离的吗。
2 上面说的存算一体,缺点是在云上不够灵活,没法充分发挥云上资源弹性伸缩的特点;是云本身的问题,还是说存算一体只要离开了云就能灵活了。

高昌健-JuiceFS
高昌健-JuiceFS
1. 是的,这是我们的理解。云原生已经是大势所趋,大数据生态的各种组件也都在朝着云原生的方向迭代; 2. 是存算一体架构的问题,和是否使用云没有关系,不管是公有云还是私有云。
0
梦里蓝天
梦里蓝天

@Juicedata  目前在做Java服务器开发,对分布式和微服务还是有一定经验和实践的,如果转大数据,有走什么路径去一步步学习呢

高昌健-JuiceFS
高昌健-JuiceFS
大数据领域有很多方向,比如平台架构、数仓、流式计算等,看你个人对哪方面更感兴趣。建议先从了解大数据平台的整体架构开始。
0
f
fightingAllTheDay

@Juicedata 老师你好,1. 存算分离和存算一体的优缺点是什么;2. 存算分离有推荐的架构实践吗;3. 数据湖和湖仓一体的架构适用场景是什么

高昌健-JuiceFS
高昌健-JuiceFS
3. 数据湖和湖仓一体都解决了一些共通的问题,如数据孤岛、非结构化数据和半结构化数据的处理等。湖仓一体相对来说是更新的架构,强调开放性(如开放的文件格式、开放的存储层)。有兴趣也可以查看 JuiceFS 的这篇相关博客:https://juicefs.com/blog/cn/posts/juicefs-exploration-on-data-lake-storage-architecture
高昌健-JuiceFS
高昌健-JuiceFS
2. 存算分离的架构实践可以参考 JuiceFS 一个用户的案例:https://juicefs.com/blog/cn/posts/juicefs-practice-in-souche
高昌健-JuiceFS
高昌健-JuiceFS
1. 存算一体的优势是架构成熟、性能好(数据本地性),缺点是在云上不够灵活,没法充分发挥云上资源弹性伸缩的特点;存算分离的优势就是解决存算一体的缺点,但是存算分离的缺点是一定程度上会牺牲性能,另外如果只是用对象存储会遇到很多以前用 HDFS 不会遇到的问题(比如目录原子重命名、一致性等)。
0
南方Go
南方Go

@Juicedata   老师好,1. HDFS,  JuiceFS, nfs这三者的存储格式有啥优点和缺点?  2.想了解下 JuiceFS是否适用于  windows  server的平台存储平台? 如果有需要在windows server做存储 ,有什么推荐的框架吗?  3.大批量的小文件,JuiceFS处理怎么样,JuiceFS的架构上有没有什么突出的优势,使用了什么设计模式?  4.JuiceFS使用了 完全兼容 HDFS API ,是否会有抄袭的开源问题?

高昌健-JuiceFS
高昌健-JuiceFS
4. HDFS 的 FileSystem API 本来就是公开的( https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/filesystem/index.html ),不存在抄袭的问题。
高昌健-JuiceFS
高昌健-JuiceFS
3. 相比一些常见的分布式文件系统(比如 HDFS),在存储同样数量文件的条件下(比如都存储 1 亿个小文件),JuiceFS 元数据引擎所需的存储空间更小(比如用 Redis 存储每个 inode 只需要 300 字节内存),因此 JuiceFS 可以很轻松地支撑存储数十亿、甚至上百亿的小文件。
高昌健-JuiceFS
高昌健-JuiceFS
2. JuiceFS 同时支持 Linux、Windows、macOS 3 种平台,因此可以在 Windows Server 上使用 JuiceFS,有兴趣可以参考这个文档:https://juicefs.com/docs/zh/community/installation#windows-%E7%B3%BB%E7%BB%9F
高昌健-JuiceFS
高昌健-JuiceFS
1. HDFS 和 JuiceFS 比较类似,会对存储的文件进行分块(block),区别在于 HDFS 默认分块的大小是 128MiB,JuiceFS 是 4MiB。分块的好处是对于大文件可以分散存储,提高读写并发,缺点是粒度越大对小文件越不友好(HDFS 是一个很好的例子)。而 NFS 主要是一种协议,存储格式依赖的是操作系统的文件系统。
0
深蓝苹果
深蓝苹果

创新地将对象存储作为底层存储介质,实现了存储空间的无限扩展。任何存入 JuiceFS 的文件都会按照特定规则被拆分成固定大小的数据块保存在对象存储”

确定是认真的吗???

0
开源中国首席关注华为
开源中国首席关注华为

@Juicedata  老师,好! 存储计算分离是大数据的未来,JuiceFS 是一款开源分布式文件系统,是用来解决“存储”的问题,目前有没有在生产环境中应用呢?数据量大概是什么量级的?性能评测如何?
另外,在“计算”方向上,有没有什么新的idea?

高昌健-JuiceFS
高昌健-JuiceFS
已经有很多公司在大数据平台的生产环境中使用 JuiceFS 了,具体可以参考这个列表:https://github.com/juicedata/juicefs/blob/main/ADOPTERS_CN.md
0
y
yh2216
缺点是啥?什么情况不建议用,什么场景用了没必要?
高昌健-JuiceFS
高昌健-JuiceFS
1. 存算分离架构的缺点是相比存算耦合架构性能会有下降(网络 IO 延迟),以及某些存储系统(比如对象存储)因为缺失了文件系统的一些特性(比如目录原子重命名、强一致性等)从而影响计算任务的性能和稳定性; 2. 不建议使用的场景:大数据平台没有上云的需求,计算任务没有弹性伸缩的需求。
0
jingshishengxu
jingshishengxu

存算肯定得在一起才行

0
OSC_AgVDms
OSC_AgVDms

@Juicedata 你好 我是一名大数据工程师,今年我也学习了一些云原生的知识以及考了k8s相关考试, 请问从你的经验出发,后面云原生上的大数据 是否适合生物计算相关的场景,有没有了解过 相关向量化存储

高昌健-JuiceFS
高昌健-JuiceFS
回复 @OSC_AgVDms : JuiceFS 在云上的使用也很简单,元数据引擎和对象存储都可以用云上的全托管服务。相比直接使用对象存储而言 JuiceFS 最大的优势就是提供完整的文件系统特性以及更好的性能,这几点对于从 HDFS、NAS 系统迁移到云上的用户特别有用。
OSC_AgVDms
OSC_AgVDms
@Juicedata 你好 那请问Juice FS产品的定位,存算分离对一些小厂来说 技术储备不足一般都依赖云上提供的相关服务 比如aws的s3 或者阿里云的oss 并且和自家相关的服务打通 也是湖仓一体 请问如何理解咱们的产品优势
高昌健-JuiceFS
高昌健-JuiceFS
抱歉,我对于生物计算领域不是很了解。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部