高手问答第 241 期 —— 图数据库开发与应用实战分享

xplanet 发布于 03/18 08:53
阅读 5K+
收藏 18

当前,互联网数据呈指数级增长,集中表现在数据量级的飞越和数据关联的复杂化加深。对于企业而言,如何如何通过挖掘大数据的关联性去探索“隐藏”在背后的价值变得越发重要。

然而,传统的关系型数据库,在处理复杂数据关系运算上表现很差,随着数据量和深度的增加,关系型数据库无法在有效的时间内计算出结果。所以,为了更好地利用数据间的连接,企业需要一种——将关系信息存储为实体、灵活拓展数据模型的数据库技术,这项技术就是图数据库。

2019 年 Gartner 数据与分析峰会上,图数据被列为年度十大数据和分析趋势之一。并且,预计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长。根据 DB Engines 近 7 年数据库流行趋势显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。

OSCHINA 本期高手问答 (2020 年 03 月 18 日 - 2020 年 03 月 25 日) 将以【图数据库的优势】为话题展开讨论,包括「图数据库入门」、「图数据库在具体场景的应用」、「图数据库的技术原理」、「图数据库如何解决面临的挑战」、「图数据库的选型」、「图数据库在人工智能的展望」等,当然也可以延伸到图数据库的整个领域,或聚焦于有关 HugeGraph 图数据库 的实战问题。

嘉宾简介

李章梅,现任百度安全部资深研发工程师,HugeGraph 开源图数据库技术负责人。主要从事图数据库及分布式存储的研发工作,曾在【第十届中国数据库技术大会】图数据库论坛发表演讲。开源技术爱好者,持续参与开源社区贡献,包括 OpenStack、Ceph、ScyllaDB、RocksDB、TinkerPop 等。

为了鼓励踊跃提问,华章图书会在问答结束后从提问者中抽取 3 名幸运读者赠予深入浅出图神经网络:GNN原理解析一书。 该书将理论与实践相结合,分别从原理、算法、实现、应用 4 个维度详细讲解了图神经网络。

购书地址:https://item.jd.com/12615065.html?dist=jd

此外,另抽取三位幸运读者,分别赠送百度熊一只 :D

OSCHINA 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家向李章梅老师 @JermyLi 积极提问,直接回帖提问即可。

加载中
0
xplanet
xplanet

高手问答第 241 期 —— 图数据库开发与应用实战分享
@lxbzmy  @flygogo  @miller-he
恭喜以上三位网友分别获得《深入浅出图神经网络:GNN原理解析》图书一本。
@becke  @灰灰  @该昵称已占用
恭喜以上三位网友分别获得百度熊一只。
请私信 @xplanet 告知快递信息(姓名+电话+地址)。

0
久永
久永

@JermyLi 优点疑问借此发问:为啥要交流的是图数据库,但是送的书却是图AI?(PS:钢筋门不用纠结另一个送的礼物)正好最近在接触AI方面的资料,那么我就想借此图数据库对于图神经网络的优势在哪?有没有什么独一无二排的特性优势?

J
JermyLi
个人理解,图数据库的优势偏存储和OLTP查询,图神经网络则偏计算和离线分析,两个技术可以相互独立应用,但并不是对立的。事实上,因为两者处理的数据都是图数据,所以可以结合起来使用,相互补充优势:图神经网络基于图数据进行计算,图数据库可作为输入输出存储。神经网络一次计算的数据量受内存限制,大规模的全图计算,往往需要抽取部分子图,图数据库可提供子图采样等操作,计算输出结果存在图中利于后续查询和图谱进化。
0
源码节点
源码节点

@JermyLi  老师你好, 图数据库入门 ,选哪个框架学习比较好?市面上的图数据库不少,应该怎么选? 假如做社交类应用的,图数据库怎么选?

J
JermyLi
图数据库属于比较新的技术,当前算是诸侯混战时期。不管是技术还是语言,行业标准往往能带来极大优势:标准化效率高、学习成本低、技术可复用。图包括Cypher和Gremlin两个主流派,Cypher属于领域开拓者、Gremlin开源开放支持厂商众多。Gremlin作为Apache TinkerPop框架规范语言,个人非常看好其趋势。社交类应用选择HugeGraph,支持大规模数据,国内首款开源图数据库。
0
开源中国首席罗纳尔多
开源中国首席罗纳尔多

@JermyLi 您好,请问图数据库应用在哪些方面和场景?

J
JermyLi
典型应用场景包括深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、 知识图谱等,适用业务领域如网络安全、黑产打击、金融风控、社交网络和智能机器人等。 举个栗子,比如金融风控业务中,有欺诈用户使用假冒身份证和手机进行贷款,那么可以通过图数据库分析其社会关系,即使其能构造出通话记录、亲密联系人等关系网络,经过图数据库技术多维度深层次分析,也可快速检测出来。
0
源码节点
源码节点

@JermyLi  直接关注老师的GitHub了,学习了  ,请问python3.7运行应该也没有问题吧? 这个 配套代码 项目 ,为啥没有用TensorFlow或者caffe ?? 

这个技术选项考虑是?

python>=3.6
jupyter
scipy
numpy
matplotlib
torch>=1.2.0
https://github.com/FighterLYL/GraphNeuralNetwork

J
JermyLi
这个是忠雨老师的项目,我邀请作者 @刘忠雨 来解答哦。
0
wha37
wha37

@JermyLi   图计算与神经网络天然地结合到了一起 ,请问图数据库在安全领域方面有没有啥应用? 

图数据能不能关联分析出,安全问题?

J
JermyLi
另一方面,用于网络攻击关系图谱分析。在网络安全本身的监测上图也是一个利器,比如网络攻击事件数据规模巨大,传统的技术对孤立事件之间的关联、事件间的团伙属性的实时追踪能力不足。图数据库可以抽取网络安全事件关联关系、构建关联网络数据检索体系,实时检索IP攻击链路与团伙。
J
JermyLi
HugeGraph主要应用场景是解决百度安全事业部所面对的反欺诈、威胁情报、黑产打击等业务的图数据存储和建模分析需求,在此基础上逐步扩展及支持了更多的通用图应用。 图数据库的优势是分析复杂的关联关系,账号、IP、设备、手机号、App等形成的关联关系网络非常复杂,图数据库解决的问题,就是从中分析欺诈特征(比如高密子图),挖掘欺诈用户。 另一方面,用于网络攻击关系图谱分析。(限制了200字)
0
wha37
wha37

@JermyLi  这种基于 基于社交网络的推荐系统  , 在广告行业应用如何分析,老婆女性朋友不玩游戏,老公男性朋友玩游戏这种情况,应该如何判断? 

J
JermyLi
基于社交网络的推荐是有理论依据的:近朱者赤。那类似协同推荐、PersonalRank算法就是很好的例子。传统的方式更多的是分析浅层次的属性特征,实际上深层次的关系特征中,蕴含了更多丰富的规律。发现聚集团伙、并结合其属性&行为进行分析,群体的潜在特征就容易量化出来。
0
lxbzmy
lxbzmy

@JermyLi 想问一个问题图数据库建模问题,在设计relation时,有哪些经验可以分享。

在我的应用中,大部分边能都看做为contains,这样做查询写起来麻烦,但是模型简单。是否可分享一下你的经验?

J
JermyLi
使用大一统的建模方法有一个好处,所有的实体都能轻松纳入进来,扩展性好,这种方式往往适合实体类型爆炸式增长的场景,或者某些通用知识图谱领域。就如你所说的,查询起来麻烦,因为关系丢失了类型信息,比如“同事”、“亲戚”这两种关系,细粒度关联分析得出的特征和笼统分析得出的特征,具备不一样的含义,比如判断这群人“爱吃辣”这个特征。另外,还体现在性能上,比如碰到“关注”这种边可以禁止往回走,否则可能陷入超级点
0
赤脚小子
赤脚小子

@JermyLi 你好,请问现在做推荐系统是不是只上图数据库就够了?

J
JermyLi
推荐系统非常适合使用图数据库,包括协同推荐、社区聚类推荐、各种Rank推荐。图推荐的好处是链路清晰易懂、解释下强、可精细化迭代改进。比如在某商品推荐业务中,针对用户Query,基于实体和关系语义的推荐,Badcase识别准确率就远高于模型训练得出的结果。“只上图数据库就够了”可能也并不是那么绝对,有一些传统方法依然可作为补充。
0
g
graph学习

@JermyLi

你好,graph.removeVertex(x.id()) 可以根据id删除点,请问如何可以批量删除呢;另外官方文档Api操作介绍什么时候可以详细一些,讲解的功能有些笼统

J
JermyLi
感谢关注和反馈,文档方面我们会持续改进。批量删除目前只能通过gremlin语句来实现,比如g.V().has('flag',0).drop(),不过受限于一次提交内容不允许过多,超过1万条记录的删除需要分批进行,所以需要用户手动进行一些提交数量控制。 后续HugeGraph会支持批量删除API,请关注Issue:github.com/hugegraph/hugegraph/issues/886
返回顶部
顶部