高手问答第 306 期 —— 聊聊 LLM 与知识图谱、图数据库的关系

小白兔爱吃大灰狼 发布于 2023/09/05 10:42
阅读 17K+
收藏 2

鸿蒙原生应用开发者激励计划发布!最高获百万现金!点击立即参与

自从今年初 ChatGPT 横空出世并风靡全球之后,我们也迎来了一个并不陌生的名词:LLM,即大语言模型。随后,众多与 LLM 相关的项目如火如荼,这项新技术点燃了人们对科技未来的无限想象。

半年过去了,人们开始冷静地审视 LLM,思考它到底能为我们带来怎样的实际效益。与此同时,在过去的半年里,图数据库 NebulaGraph 研发人员也在探索这个问题,他们结合图技术和知识图谱,进行了自己的研究和尝试。

OSCHINA 本期高手问答 (9 月 6 日 - 9 月 12 日) 我们请来@wey 和 @xctylist 与大家一起讨论 LLM 到底能为广大图技术从业者带来什么。

大家可以从"LLM + 图数据库"、"LLM + 知识图谱"等方向提出问题。除了以上提问范围,你还可以扩展讨论的范围,涵盖图数据库、LLM 相关领域的内容,包括 LLM 的应用、图的应用场景等等:

* LLM 和知识图谱的结合应用
* 快速上手使用 LLM
* 利用 LLM 生成图查询语句
* ...

* 图数据库:一种专门用于存储和查询图数据的数据库系统。它们被设计用于处理大规模的图结构数据,提供高效的图遍历和复杂的图查询功能。图数据库能够有效地存储和处理知识图谱数据,并支持复杂的查询和推理操作。
* 知识图谱:一个结构化的知识表示形式,用于存储和组织实体、属性和它们之间的关系。它以图的形式呈现,其中实体表示为节点,关系表示为边。知识图谱旨在捕捉世界的语义关系,并提供一种有效的方式来查询和推理关于实体之间关系的知识。

嘉宾介绍:

* 古思为:NebulaGraph 布道师,他是首个在 LlamaIndex 社区提出 Graph + RAG 概念的人;


* 程训焘:NebulaGraph 核心开发者,从事图数据库的开发工作,目前致力于更好地将图数据库与 LLM 结合。

为了鼓励踊跃提问, NebulaGraph 会在问答结束后从提问者中抽取 5 名幸运会员,赠予礼盒 3 件套(内含:T恤 * 1、吉祥物 * 1、 不可背锅钥匙扣* 1)。
 

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就“LLM + 图数据库、LLM + 知识图谱”相关问题向 古思为、程训焘老师 提问,直接回帖提问既可。

加载中
1
小白兔爱吃大灰狼
小白兔爱吃大灰狼

高手问答第 306 期 —— 聊聊 LLM 与知识图谱、图数据库的关系 

@拉裤兜兜子  @南小山程序员 @八一菜刀  @Elven_Xu  @梦梦阁 

恭喜以上5位网友分别获得礼盒 3 件套一套。

请于2023年9月21日前登陆账号, 私信  @小白兔爱吃大灰狼   告知快递信息(格式:姓名+电话+地址),过期视为自动放弃哦~

3
iman123
iman123

@NebulaGraph 你好,现在LLM很火,我理解的LLM他其实是基于已有的知识、数据,汇聚起来可以给你一些非创造性的答案、建议,例如你无法让他去发现、创造未知的科学,不知道我的理解对不对。LLM其实未来可以代替一些重复性的人工客服工作以及提高一些工作效率,程序员可能不能完全代替,要是可以自己写代码、调试代码、运行代码那就真像黑客帝国里面的一样了 😁

另外图数据库我之前接触过neo4j,NebulaGraph相比而言有哪些优缺点呢?

iman123
iman123
回复 @wey-gu : 谢谢,有机会我也尝试用用
wey-gu
wey-gu
关于 NebulaGraph neo4j,来说,NebulaGraph 可以说有一些后发优势。 后者是我们创始团队在多年的图存储系统积累之上,用新的存储工程方法和实践,面向分布式、超大规模数据设计的。所以对于大图,高可用,高并发的场景,或者说业务上图在膨胀的场景,用 NebulaGraph 就自然 scale 就好了。 其次 NebulaGraph 是开源的(apache 2.0)。
wey-gu
wey-gu
的确呢,不过,写代码的分析、调试借助 copilot 和 cursor 这样的工具,已经可以做到比想象中更智能、流畅了,这有一个例子是 @xtcyclist 提了一个 NebulaGraph 内核改动,我用这些辅助工具,几分钟就找到在 NebulaGraph 哪里修改,怎么做修改的的例子,生成测试代码 https://vimeo.com/858182792 1/n
2
拉裤兜兜子
拉裤兜兜子

@NebulaGraph 老师好,想请教学习下:1.大语言模型LLM是否可以协助提取分析数据关键信息生成图数据吗?怎么落地?2.图数据库和大数据框架计算引擎的结合,效率或者图算法的优势互补怎么更好发挥?

拉裤兜兜子
拉裤兜兜子
回复 @WeyGu : 感谢老师的分享解答
wey-gu
wey-gu
2(续续),另外一个例子就是,GNN 在全图上训练得到 inductive 的模型,然后在线上业务中,实时从 NebulaGraph 抽取相关新插入点的子图(比如3000个点),然后作为 input 给模型去推理得到预测结果,也是典型的 GNN + 图库的结合案例,例子项目在这里 https://github.com/wey-gu/NebulaGraph-Fraud-Detection-GNN/
wey-gu
wey-gu
2(续). 比如用 NebulaGraph 企业版本的 explorer + nebulagraph analytics,我们可以用 API 或者 浏览器里的所见即所得界面任意规划图上的复杂计算任务 pipeline,它在底层,我们可以按需选择基于图库的查询,亦或者绕过查询层直接从数据库底层扫全图进行图计算任务。
wey-gu
wey-gu
2. 图库的优势是实时性,和图查询、少量计算的灵活表达,劣势在于它不擅长涉及到全图或者部分全图数据量的运算。图计算平台相反,适合全图量的访问以及迭代、计算任务,但是默认来说图计算平台数据的实时性是一个短板(常常是从数仓拉数据)。结合的例子就是计算平台作为计算层,存储层按需选择图库。像 NebulaGraph 这样的存算分离架构,图计算平台就算是集群内部的异构计算、查询层,结合起来就非常顺滑了。
wey-gu
wey-gu
1. 可以的,利用 LLM 做提取,KG的构建,这里有 demo https://www.siwei.io/demos/text2cypher/ ,https://www.siwei.io/demo-dumps/kg-llm/KG_Building.ipynb ,更进一步,我们还能结合 LLM + NLP 模型一起做这个事儿,比如 rebel ,未来我会给出 demo/文章 哈。
2
clearsky1991
clearsky1991

@NebulaGraph 你好,llm现在很火,可以部署一些在本地自己使用么,对电脑配置都有什么要求,有哪些类似于chatgpt 4的个人本地使用的开源免费项目推荐么?

clearsky1991
clearsky1991
回复 @wey-gu : 谢谢 😀
wey-gu
wey-gu
可以呀,比如 ChatGLM2-6B,量化之后可以跑在 CPU 上呢。 这里有我用 ChatGLM2-6B 和本地 embedding 模型做 LLM + Graph 的例子,文章还拖着没发,可以先尝鲜。 https://www.siwei.io/demo-dumps/local-llm/Graph_RAG_Local.html
0
crf1111
crf1111

@NebulaGraph

你好,图数据库目前业界有没有将其应用到CAE领域,能否举几个案例啊?

谢谢!

crf1111
crf1111
回复 @xtcyclist : 谢谢。
x
xtcyclist
搜到一篇论文:A Graph-based Approach to Manage CAE Data in a Data Lake
0
l
lvxb

@NebulaGraph您好,LLM能应运在短文本分类识别判断?有没有什么实际的案例?

l
lvxb
回复 @xtcyclist : 现在比较好的模型库有那些?
x
xtcyclist
当然可以啊,文本处理类那当然是大语言模型最擅长的地方了。我博士的组最近做了一个“美投365”的公众号,他们用LLM分析美股数据和财经消息,有长有短,然后生成评论文章,里面包括了对文本的分类。
0
LeoXu
LeoXu

@NebulaGraph 老师好,我想自己学习并且实践一下这个领域,可否推荐一些入门资料和书籍,还有电脑配置也麻烦推荐一下,谢谢!

LeoXu
LeoXu
回复 @NebulaGraph : 好的,谢谢老师
x
xtcyclist
推荐 https://www.siwei.io/
NebulaGraph
NebulaGraph
最后,🤔 你有兴趣的话,可以看下之前思为关于 LLM、知识图谱、图数据库的分享:https://my.oschina.net/u/4169309/blog/10096859
NebulaGraph
NebulaGraph
回复 @NebulaGraph : 也可以看下吴恩达老师的 https://github.com/datawhalechina/prompt-engineering-for-developers
NebulaGraph
NebulaGraph
这里可以看下我们社区用户陈卓见之前推荐的入门教程 Survey of Large Language Models:https://arxiv.org/abs/2303.18223,主要了解下基本概念; 中文版的综述《大语言模型综述》:https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf
0
xiaour
xiaour

@NebulaGraph 图数据库几年前我在做AI Music APP的时候用到过,但是我发现,对于寻求极致性能和效率,市面上的图数据库都是有些瓶颈的,往往需要投入大量资源,或者用户忍受响应延迟;我们该怎么处理对于图数据库方面投入成本和收益的冲突呢?

wey-gu
wey-gu
不过总体来说,如果 ROI 在场景中说得通,非常推荐试试把图库加进来,这样可以打开很多潜在的可能性。 试想实时在图上获得多跳关联,带有一定的可视化洞察能力,在图上做一些算法获得新的 feature 和结论等等
wey-gu
wey-gu
可以来 NebulaGraph 社区聊聊你的瓶颈,这个项目比较擅长线上高并发的场景,很多国内的社交、生活类大厂在用呢,分布式的设计使得数据量上来了也不用太操心 scale 的问题。 图库作为一个新的系统,一定是有一定的人才投入成本的,不过,这个 ROI 的情况在有了 LLM 之后有了一些质的变化: 1. 构建 KG 变容易了 2. 查询 KG(无论是人还是机器)都可能变得非常容易
0
八一菜刀
八一菜刀

@NebulaGraph 老师好,在图数据库中,关系、节点、属性等数据体现,应用层获取数据时主要通过cql语句获取,那么在和LLM大模型结合过程中,请问该如何结合呢?比如针对搜索场景,将用户的输入通过NLP转化为CQL语句的话,这个范围好像太广了(用户输入千奇百怪),无法聚焦,有什么好的处理经验吗?

wey-gu
wey-gu
具体实现方式可以看一下我的文章 www.siwei.io ,另外还做了一个小课程,不过还没做中文版,英文版在这里 视频 https://youtube.com/watch?v=hb8uT-VBEwQ&t=2797s&pp=ygU 材料: https://colab.research.google.com/drive/1tLjOg2ZQuIClfuWrAC2LdiZHCov8oUbs
wey-gu
wey-gu
简单来说两个思路,text2cypher、graph rag。 前者是把问题直接变为 cypher,后者是把问题中的关键信息抽出来,在 KG 里查子图,然后构造上下文让 LLM 生成答案,这里指的是通过一些方法(比如 chain of thoughts)已经把问题 breakdown 了之后的小问题。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部