高手问答第 241 期 —— 图数据库开发与应用实战分享

xplanet 发布于 03/18 08:53
阅读 3K+
收藏 18

当前,互联网数据呈指数级增长,集中表现在数据量级的飞越和数据关联的复杂化加深。对于企业而言,如何如何通过挖掘大数据的关联性去探索“隐藏”在背后的价值变得越发重要。

然而,传统的关系型数据库,在处理复杂数据关系运算上表现很差,随着数据量和深度的增加,关系型数据库无法在有效的时间内计算出结果。所以,为了更好地利用数据间的连接,企业需要一种——将关系信息存储为实体、灵活拓展数据模型的数据库技术,这项技术就是图数据库。

2019 年 Gartner 数据与分析峰会上,图数据被列为年度十大数据和分析趋势之一。并且,预计到 2022 年,全球图处理及图数据的应用将以每年 100% 的速度迅猛增长。根据 DB Engines 近 7 年数据库流行趋势显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。

OSCHINA 本期高手问答 (2020 年 03 月 18 日 - 2020 年 03 月 25 日) 将以【图数据库的优势】为话题展开讨论,包括「图数据库入门」、「图数据库在具体场景的应用」、「图数据库的技术原理」、「图数据库如何解决面临的挑战」、「图数据库的选型」、「图数据库在人工智能的展望」等,当然也可以延伸到图数据库的整个领域,或聚焦于有关 HugeGraph 图数据库 的实战问题。

嘉宾简介

李章梅,现任百度安全部资深研发工程师,HugeGraph 开源图数据库技术负责人。主要从事图数据库及分布式存储的研发工作,曾在【第十届中国数据库技术大会】图数据库论坛发表演讲。开源技术爱好者,持续参与开源社区贡献,包括 OpenStack、Ceph、ScyllaDB、RocksDB、TinkerPop 等。

为了鼓励踊跃提问,华章图书会在问答结束后从提问者中抽取 3 名幸运读者赠予深入浅出图神经网络:GNN原理解析一书。 该书将理论与实践相结合,分别从原理、算法、实现、应用 4 个维度详细讲解了图神经网络。

购书地址:https://item.jd.com/12615065.html?dist=jd

此外,另抽取三位幸运读者,分别赠送百度熊一只 :D

OSCHINA 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家向李章梅老师 @JermyLi 积极提问,直接回帖提问即可。

加载中
0
xplanet
xplanet

高手问答第 241 期 —— 图数据库开发与应用实战分享
@lxbzmy  @flygogo  @miller-he
恭喜以上三位网友分别获得《深入浅出图神经网络:GNN原理解析》图书一本。
@becke  @灰灰  @该昵称已占用
恭喜以上三位网友分别获得百度熊一只。
请私信 @xplanet 告知快递信息(姓名+电话+地址)。

0
山间无涯
山间无涯

@JermyLi 您好,我之前一直用neo4j做知识图谱,但是有一个点不太好,它可以存储一般的实体关系三元组,但是不太容易直接用pytorch等框架进行训练,每次需要进行转换成文本。请问您在这方面有什么建议吗?

0
百度慧推
百度慧推

为百度安全 HugeGraph 开源图数据库手动点赞👍🏻

J
JermyLi
谢谢
0
多学习多思考
多学习多思考

@JermyLi  金融风控 用图数据库处理, 是如何发现 有贷款还不上的风险的问题的?  关联分析ip,手机号码吗?

多学习多思考
多学习多思考
回复 @JermyLi : 大量账户同时拥有同一个手机号 大量用户同时使用同一个手机或WiFi网络 同一个账号或设备在多平台申请借贷 自相矛盾关系检测,包括:用户填写的关系自相矛盾、用户公司地址自相矛盾、通话记录与职业自相矛盾等等 关系环路检测(比如检测是否有循环担保) 多层关系高度聚集性检测,比如大量账号通过大量虚假设备接入同一个网络
J
JermyLi
可以通过检测贷款资金去向、财务信息、通话信息等异常特征进行贷后风控。 贷前风控可以参考:https://zhuanlan.zhihu.com/p/114665466
0
该昵称已占用
该昵称已占用

@JermyLi 请问HugeGraph-Server配置 authentication 后,HugeGraph-Studio需要怎样配置才能正常连接server,文档中只有HugeGraph-Server的配置方式

J
JermyLi
hugegraph-studio 不支持配置用户认证,新版前端 hugegraph-hubble 是支持多图连接以及用户认证的,请关注。
0
miller-he
miller-he

@JermyLi 你好,我目前从事开发的系统中存在很多图片文件,现在的处理手法都是利用传统有关系数据库来存放文件路径的方法来处理,对于后期的数据分析非常不友好,请问,类似的从传统数据库转成图象处理为主的系统,就如何引用图象数据库之类的来更新?

J
JermyLi
有一个经常引起误会的点:大家以为图数据库是处理图像的,其实这里的图是指Graph而非Image,图数据库是用来处理关联关系形成的网络图谱这种数据。所以你提到的这个问题是否也有一些误会? 关于问题“关系数据库存放文件路径时数据分析非常不友好”,是指文件路径和数据不在一起导致的吗?或许可以考虑对象存储系统,比如Ceph等。
0
建安七子
建安七子

@JermyLi

你好,我之前使用hugegraph为基础做了一些图谱类的应用,在这方面并没有感觉相较于titan,neo4j有特别突出的优势,不知道这块是不是我没有用到。从hugegraph的定位以及以后的发展线路来讲是聚焦在图学习上吗?这块在把hugegraph-spark闭源之后不知道会不会推出其他新的工具?从技术路线上,hugegraph往后的版本会提供什么新的特性呢?

J
JermyLi
HugeGraph的优势主要包括:支持大规模数据与图分区、高性能、功能丰富、支持中文社区等,支持可视化的数据建模与导入、支持丰富的图算法和可视化图分析。 关于Neo4j、JanusGraph、HugeGraph这3个图数据库的详细对比,可以参考这篇文章:https://zhuanlan.zhihu.com/p/114834574
0
刘忠雨
刘忠雨

引用来自“多睡多精神”的评论

@JermyLi  直接关注老师的GitHub了,学习了  ,请问python3.7运行应该也没有问题吧? 这个 配套代码 项目 ,为啥没有用TensorFlow或者caffe ?? 

这个技术选项考虑是?

python>=3.6
jupyter
scipy
numpy
matplotlib
torch>=1.2.0
https://github.com/FighterLYL/GraphNeuralNetwork

你好,近期我会组织一次对于该书籍的问答活动,敬请关注。鉴于自己的习惯,选用了Pytorch,TensorFlow2.0 现在跟Pytorch 使用接口差不多了,可进行快速迁移。

0
LeoXu
LeoXu

@JermyLi 你好,我自己的工作经历中,会遇到从大量的数据中分析出统计数据过程缓慢的问题,想问下图数据库能否有效解决这个问题,是不是能达到秒出的效果,谢谢。

J
JermyLi
图数据库的一个核心是解决关联关系分析问题,如果统计的维度是关系分析,则可以秒级响应,如果是基于全量数据的统计,那是任何数据库都难以做到秒级的,图数据库也不例外。建议:或许某些场景可以通过索引来优化,或者通过并行计算来加速。需要针对具体需求进行分析。
返回顶部
顶部