HarvestText 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HarvestText 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HarvestText 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !

软件简介

HarvestText 是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有潜在应用价值。

使用案例:

【注:本库仅完成实体分词和情感分析,可视化使用 matplotlib】

具体功能如下:

  • 基本处理
    • 精细分词分句
      • 可包含指定词和类别的分词。充分考虑省略号,双引号等特殊标点的分句。
    • 文本清洗
      • 处理URL, email, 微博等文本中的特殊符号和格式,去除所有标点等
    • 实体链接
      • 把别名,缩写与他们的标准名联系起来。
    • 命名实体识别
      • 找到一句句子中的人名,地名,机构名等命名实体。
    • 实体别名自动识别(更新!)
      • 从大量文本中自动识别出实体及其可能别名,直接用于实体链接。例子见这里
    • 依存句法分析
      • 分析语句中各个词语(包括链接到的实体)的主谓宾语修饰等语法关系,
    • 内置资源
      • 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务。
    • 信息检索
      • 统计特定实体出现的位置,次数等。
    • 新词发现
      • 利用统计规律(或规则)发现语料中可能会被传统分词遗漏的特殊词汇。也便于从文本中快速筛选出关键词。
    • 字符拼音纠错(调整)
      • 把语句中有可能是已知实体的错误拼写(误差一个字符或拼音)的词语链接到对应实体。
    • 自动分段
      • 使用TextTiling算法,对没有分段的文本自动分段,或者基于已有段落进一步组织/重新分段
    • 存取消除
      • 可以本地保存模型再读取复用,也可以消除当前模型的记录。
    • 英语支持
      • 本库主要旨在支持对中文的数据挖掘,但是加入了包括情感分析在内的少量英语支持
  • 高层应用
    • 情感分析
      • 给出少量种子词(通用的褒贬义词语),得到语料中各个词语和语段的褒贬度。
    • 关系网络
      • 利用共现关系,获得关键词之间的网络。或者以一个给定词语为中心,探索与其相关的词语网络。
    • 文本摘要
      • 基于Textrank算法,得到一系列句子中的代表性句子。
    • 关键词抽取
      • 基于Textrank, tfidf等算法,获得一段文本中的关键词
    • 事实抽取
      • 利用句法分析,提取可能表示事件的三元组。
    • 简易问答系统
      • 从三元组中建立知识图谱并应用于问答,可以定制一些问题模板。效果有待提升,仅作为示例。

用法

首先安装, 使用pip

pip install --upgrade harvesttext

或进入setup.py所在目录,然后命令行:

python setup.py install

随后在代码中:

from harvesttext import HarvestText
ht = HarvestText()

即可调用本库的功能接口。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2020/09/05 16:40

用python分析《三国演义》中的社交网络

作者介绍:blmoistawinde, 西南某高校学森一枚,喜欢有意思的数据挖掘分析。希望给世界带来些清新空气~ 个人博客地址:https://blog.csdn.net/blmoistawinde。 本文首发于:https://blog.csdn.net/blmoistawinde 前言 一直以来对自然语言处理和社交网络分析都很感兴趣,前者能帮助我们从文本中获得很多发现,而后者能够让我们对人们和各个事物之间普遍存在的网络般的联系有更多认识。当二者结合,又会有怎样的魔力呢? 作为一个...

0
0
2019/01/09 19:31

数据分析 | 用python分析《三国演义》中的社交网络

打开公众号,点击“设为星标”就可以哦~ 年度总结:失败是成功之母,成功是成功之父【文末送20本签名书】 年度技术文章整理:学Python前请你先看看这个文章! 前言 一直以来对自然语言处理和社交网络分析都很感兴趣,前者能帮助我们从文本中获得很多发现,而后者能够让我们对人们和各个事物之间普遍存在的网络般的联系有更多认识。当二者结合,又会有怎样的魔力呢? 作为一个三国迷,我就有了这样的想法:能不能用文本处理的方...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
3 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部