中文主题建模工具包 Familia

中文主题建模工具包 Familia

BSD
C/C++
跨平台
百度
2017-07-18
王练


Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型,以及这些模型在工业界的典型应用方式,助力主题模型技术的科研和落地。

应用介绍

Familia目前包含的主题模型的对应论文介绍可以参考相关论文

主题模型在工业界的应用范式可以抽象为两大类: 语义表示和语义匹配。

  • 语义表示 (Semantic Representation)

   对文档进行主题降维,获得文档的语义表示,这些语义表示可以应用于文本分类、文本内容分析、CTR预估等下游应用。

  • 语义匹配 (Semantic Matching)

    计算文本间的语义匹配度,我们提供两种文本类型的相似度计算方式:

    • 短文本-长文本相似度计算,使用场景包括文档关键词抽取、计算搜索引擎查询和网页的相似度等等。

    • 长文本-长文本相似度计算,使用场景包括计算两篇文档的相似度、计算用户画像和新闻的相似度等等。

更详细的内容及工业界应用案例可以参考Familia Wiki

代码编译

第三方依赖包括gflags-2.0glogs-0.3.4protobuf-2.5.0, 同时要求编译器支持C++11, g++ >= 4.8, 兼容Linux和Mac操作系统。 默认情况下执行以下脚本会自动获取依赖并安装。

$ sh build.sh # 包含获取并安装第三方依赖的过程

模型下载

$ cd model
$ sh download_model.sh

的码云指数为
超过 的项目
加载中

评论(1)

开源小肚兜
开源小肚兜
非常不错

暂无资讯

暂无问答

Api 常用工具

1.调用腾讯 AI 接口的 Java 客户端 Taip 2.自然语言处理 HanLP 3.文本自动摘要工具 TextTeaser 4.中文主题建模工具包 Familia 5.百度人脸活体检测...

2018/11/08 11:24
16
0
程序员的7个坏习惯

1. 所有的代码都是垃圾,除了我的以外 哥们儿,我有一个坏消息要告诉你,你的代码很垃圾。不管你花费了多少精力,总是有很多程序员认为你的代码是垃圾,他们可以比你做的 10 倍更好。 怎么解...

2013/06/15 10:53
8
0
程序员的7大坏习惯

0. 所有的代码都是垃圾,除了我的以外 哥们儿,我有一个坏消息要告诉你,你的代码很垃圾。不管你花费了多少精力,总是有很多程序员认为你的代码是垃圾,他们可以比你做的10倍更好。 怎么解决...

2012/05/23 09:59
60
0
程序员的7个坏习惯

1. 所有的代码都是垃圾,除了我的以外 哥们儿,我有一个坏消息要告诉你,你的代码很垃圾。不管你花费了多少精力,总是有很多程序员认为你的代码是垃圾,他们可以比你做的10倍更好。 怎么解决...

2012/05/29 07:59
34
0
显卡参数指标

直接上战斗力列表: 只能说8800是神一样的存在 High End Videocards - Updated 27th of December 2010 Videocard PassMark G3D Score GeForce GTX 580 3,781 GeForce GTX 480 3,530 GeForce...

2012/03/09 14:09
86
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部