高手问答第 257 期 —— 聊聊图数据库 Nebula Graph

白开水不加糖 发布于 03/08 10:13
阅读 4K+
收藏 11

将数据资产视为公司重要资产是企业的共识,数据的产生、存储、消费…每个数据流动环节都不可忽视。伴随着企业业务的多元化,一方面业务数据量激增,另一方面,数据不统一、数据孤岛、数据价值被低估等问题也浮出水面根本原因在于忽视了数据之间的关联

图数据库技术的出现,为企业赋予挖掘数据关联价值的能力而大数据时代的图数据库,除了具备优秀的关联价值挖掘能力,还要应对海量数据的存储计算挑战图数据库 Nebula Graph 应运而生,它是一款开源的分布式图数据库,其 shared-nothing 分布式架构和存储与计算分离的架构特性,使得它尤其擅长处理千亿顶点万亿条边的超大规模数据集,同时保持毫秒级低延时Nebula Graph 目前已应用在多家互联网头部企业的金融风控、数据治理、实时推荐、智能问答等业务场景

OSCHINA 本期高手问答(2021   8  —— 2020 年 3  14 )将围绕【图数据库 Nebula Graph】展开讨论,可讨论的问题包括但不限于:

  • Nebula Graph 的技术设计
  • Nebula Graph 各版本功能点
  • Nebula Graph 应用场景
  • 图数据库技术展望
  • 开源治理

有其他相关的问题,也欢迎提问。  

嘉宾简介

Sherman,资深图数据库技术专家,现杭州欧若数网科技有限公司 CEO,曾任职 Facebook、蚂蚁金服等公司。一直从事图数据库研发工作,主导了分布式图数据库 Nebula Graph 的研发,并将其开源为美团、京东、腾讯等一线大厂业务所用。

为了鼓励提问,@华章IT问答结束后从提问者中抽取 5 名幸运用户赠与正版ClickHouse 原理解析与应用实践1 本。

购买地址:https://item.jd.com/12886370.html

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就相关问题向 @Sherman_YE 老师提问,直接回帖提问即可。

加载中
0
白开水不加糖
白开水不加糖

高手问答第 257 期 —— 聊聊图数据库 Nebula Graph

@osc_ajxzbfuw@赤脚小子@荣飞coder@becke@Li_Peng

恭喜以上五位网友分别获得《ClickHouse 原理解析与应用实践》图书一本
请私信 @白开水不加糖   告知快递信息(格式:姓名+电话+地址)

1
z
zedra

@Sherman_YE 老师您好,请问这个作为分布式图形处理数据库,有和AI技术结合使用的场景吗

S
Sherman_YE
你好,目前跟 AI 结合的应用场景有两类,一类是常见的知识图谱,另一类是基于图的机器学习,简称 GNN,在模型训练中将数据之间的关联关系考虑进去。
1
o
osc_ajxzbfuw

@Sherman_YE

您好, Nebula现在也是越来越火, 关注的人越来越多啦。

有个小需求, 就是Nebula增加是HDD磁盘的优化, 不知道可有这方面的计划,优先级是怎样的,毕竟Nebula可能还有更重要的功能需要开发、支持。

在实际的企业中, 受限于预算、审批流程等各种原因的限制,SSD磁盘的主机并不容易获得。

o
osc_ajxzbfuw
回复 @Sherman_YE : 感谢Sherman老师的回答,我们是给客户做项目,因此场景、项目会非常多, HDD很有必要,哈哈。 期待更好的Nebula!:+1:
S
Sherman_YE
你好,由于 HDD 磁盘本身的限制,在数据量大的 TP 场景下,无论怎么优化,性能都不会很好。如果你的数据量小到足够放在内存中处理,今年我们会推出基于内存的存储引擎,这样可以解决你的问题。但是对于大数据量的 TP 场景,还是建议申请 SSD 磁盘。HDD 磁盘用于 AP 场景是可行的,今年我们会解决这个问题。
0
jasonwu24
jasonwu24

@Sherman_YE 老师您好!之前看过一篇文章,其中对比了Neo4j、 Nebula Graph以及Huge Graph这三大图数据库在入库时间、一度好友查询、二度好友查询、共同好友查询等几个方面的性能,在导入性能上,数据量小的时候 Nebula Graph 的导入效率稍慢于 Neo4j,但在大数据量的时候Nebula Graph 的导入明显优于其他两款图数据库。在 3 种查询场景下, Nebula Graph 的效率都明显高于 Neo4j,与 HugeGraph 相比也有一定的优势。这是因为Nebula Graph 采用 shared-nothing 分布式架构,所以更擅长处理千亿节点万亿条边的超大规模数据集吗?除此之外还有没有其他方面的原因使其性能更为突出呢?谢谢!

jasonwu24
jasonwu24
回复 @Sherman_YE : 好的,谢谢您!抽空拜读一下:+1:
S
Sherman_YE
你好,感谢提问。除了 shared-nothing 的架构,还有一方面是因为数据分片和存储的方式(将点和其相邻的关系放在一起,增加 data locality),另外一方面我们在查询层也做了一些优化,比如计算下推。具体可以参考我们的架构系列博客文章:https://nebula-graph.com.cn/tags/%E6%9E%B6%E6%9E%84%E5%89%96%E6%9E%90/
0
osc_52835340
osc_52835340

@Sherman_YE 请问和Tiger graph比较怎么样

S
Sherman_YE
你好,Nebula 官方不会发布跟竞品的性能对比。由于 TigerGraph 是闭源的,公开的文章不多,我们对他们的架构不是很了解,欢迎对 TigerGraph 了解的同学发表自己的意见 :smile:
0
猪娃娃
猪娃娃
@Sherman_YE 您好,图数据库对物联网行业有没有什么应用场景?
S
Sherman_YE
你好,物联网本身是物体之间的关联,所以很自然地可以用图数据库来存放,随着智能汽车的使用,物联网中的关系在动态变化中,图数据库是解决这种动态变化的关系网络最好的工具。
0
Jinn_Wei
NebulaGraph
NebulaGraph
链接跳转对应的主题是【如何用图数据库构建实时团伙检测系统】,BOSS 直聘有讲过他们是如何用 Nebula Graph 做团伙发现的,具体你可以看下我们的 B 站视频:https://www.bilibili.com/video/BV1Rh41117G9
0
赤脚小子
赤脚小子

这请NEBULA的人,送CLICKHOUSE的书是什么操作。。。

请问@Sherman_YE ,在NEBULA研发过程中肯定会有很多取舍,比如事务,是否可以更新结构,历史数据是否可以更新/删除等等特性。

一开始NEBULA在做支持某些特性不支持某些特性的过程中,是怎样的一个思考过程?一开始就有明确的使用场景/商业领域在指引?还是也是亦步亦趋直到最后走出自己的路的?

S
Sherman_YE
你好,是的,在研发过程中是有取舍的,目前 Nebula 专注的场景是高并发低延时的 TP 场景。所以,取舍的原则就是一个新特性是否能很好地支撑 TP 场景的性能要求。随着产品的成熟,我们也会慢慢开始支持 AP 场景,如离线分析和计算。
0
是胖六啊
是胖六啊

@Sherman_YE   导入大量数据 有什么比较好的优化方案和建议吗?

S
Sherman_YE
你好,目前 Nebula 提供了几种数据导入的工具,CSV Importer,Nebula Exchange(Spark/Flink 数据源导入),SST Ingest(数据量大,速度快),具体使用方式可以去 Nebula 官网的 Download 页面查看。
0
开源中国首席罗纳尔多
开源中国首席罗纳尔多

@Sherman_YE 您好,请问图数据库的应用场景是什么?有哪些行业应用?

NebulaGraph
NebulaGraph
这个是一个通用问题啦,常见的是社交推荐、知识图谱、金融风控、机器学习 AI、区块链等等应用。你可以关注 Sherman 之前的线下分享的文字整理稿:https://my.oschina.net/u/4169309/blog/3085990,当然除了上面的,之前微众银行也分享了他们用图数据库 Nebula Graph 做数据治理的分享,可以看看我们发在开源中国的博文呀,感谢支持^ ^
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部