【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
随着累积的数据量的增大,大数据业务量的增多,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大。同时,大数据处理组件多,不同组件使用不同的数据处理格式,比如大家熟悉的数据湖、数据仓库使用的就是不同的格式,多样化的数据格式导致数据存储变得复杂,系统中应对不同的场景,往往同样的数据需要存储多份,不同组件之间还需要大量的数据拷贝和格式转换,消耗大量的资源。
在当前越来越强调云原生的环境下,存储计算分离已经是大势所趋。传统基于 HDFS 的大数据平台架构在云上已经不太适合,随着数据量的增长 HDFS 的高运维成本问题也会逐渐凸显。同时由于对象存储并不是一个完备的文件系统(比如无法原子重命名目录、list 目录性能差等),无法完整替代 HDFS,Hadoop 社区为了支持对象存储用了很多折衷方案来实现,但是实际效果并不好。
JuiceFS 是一款开源分布式文件系统,创新地将对象存储作为底层存储介质,实现了存储空间的无限扩展。任何存入 JuiceFS 的文件都会按照特定规则被拆分成固定大小的数据块保存在对象存储,数据块的元数据则保存在 Redis、MySQL、TiKV 等数据库中。同时 JuiceFS 的 Hadoop Java SDK 完全兼容 HDFS API,提供完整的文件系统特性,大数据组件可以无缝从 HDFS 迁移到 JuiceFS。
本期高手问答 6 月 9 日 - 6 月 15 日,我们邀请到Juicedata 技术专家@高昌健,和大家一起探讨关于存算分离架构下的大数据存储系统选型相关的问题。
可讨论的问题包括但不限于:
- 存算架构的发展历程
- 大数据平台的架构设计
- 数据湖、湖仓一体架构设计
- 存算分离的优缺点
- HDFS、对象存储、JuiceFS 等存储系统的特性比较
嘉宾介绍:
高昌健
十年互联网行业从业经历,曾在知乎、即刻、小红书多个团队担任架构师职位,专注于分布式系统、大数据、AI 领域的技术研究。现在 Juicedata 担任技术专家,参与建设 JuiceFS 开源社区。
为了鼓励踊跃提问,@Juicedata 会在问答结束后从提问者中抽取 5 名幸运用户赠予 JuiceFS 定制搪瓷杯一个 。
OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。
下面欢迎大家就相关问题向@高昌健老师提问,直接回帖提问即可。
高手问答第 284 期 —— 为什么说存算分离是大数据平台的未来
@pyboy58 @渔民小镇 @highsense @fightingAllTheDay @子矜
恭喜以上五位网友分别获得JuiceFS 定制搪瓷杯一个 。
请于6月27日前登陆账号, 私信 @yaosaya 告知快递信息(格式:姓名+电话+地址)
@Juicedata
1 可理解成大数据平台未来一定是存算分离的吗。
2 上面说的存算一体,缺点是在云上不够灵活,没法充分发挥云上资源弹性伸缩的特点;是云本身的问题,还是说存算一体只要离开了云就能灵活了。
@Juicedata 目前在做Java服务器开发,对分布式和微服务还是有一定经验和实践的,如果转大数据,有走什么路径去一步步学习呢
@Juicedata 老师你好,1. 存算分离和存算一体的优缺点是什么;2. 存算分离有推荐的架构实践吗;3. 数据湖和湖仓一体的架构适用场景是什么
@Juicedata 老师好,1. HDFS, JuiceFS, nfs这三者的存储格式有啥优点和缺点? 2.想了解下 JuiceFS是否适用于 windows server的平台存储平台? 如果有需要在windows server做存储 ,有什么推荐的框架吗? 3.大批量的小文件,JuiceFS处理怎么样,JuiceFS的架构上有没有什么突出的优势,使用了什么设计模式? 4.JuiceFS使用了 完全兼容 HDFS API ,是否会有抄袭的开源问题?
“创新地将对象存储作为底层存储介质,实现了存储空间的无限扩展。任何存入 JuiceFS 的文件都会按照特定规则被拆分成固定大小的数据块保存在对象存储”
确定是认真的吗???
@Juicedata 老师,好! 存储计算分离是大数据的未来,JuiceFS 是一款开源分布式文件系统,是用来解决“存储”的问题,目前有没有在生产环境中应用呢?数据量大概是什么量级的?性能评测如何?
另外,在“计算”方向上,有没有什么新的idea?
存算肯定得在一起才行
@Juicedata 你好 我是一名大数据工程师,今年我也学习了一些云原生的知识以及考了k8s相关考试, 请问从你的经验出发,后面云原生上的大数据 是否适合生物计算相关的场景,有没有了解过 相关向量化存储