wordfilter 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
wordfilter 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
wordfilter 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
wordfilter 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
wordfilter 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache-2.0
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 御坂弟弟
适用人群 未知
收录时间 2021-01-08

软件简介

wordfilter 是一个用 DFA 算法实现的敏感词过滤工具,支持 Skip 参数控制敏感词干扰噪音,支持白名单跳过白名单词汇,支持在线添加和删除敏感词,管理敏感词库。

API 预览

  • 敏感词替换

    String text = "我们决定紧急征调5000人前往宅区帮助灾民,并且决定为紧急事件打开绿灯";
    filter.replace(text);

     

  • 是否包含敏感词

    String text = "我小时候有个朋友叫张三,现在和他几乎没联系了";
    filter.include(text);

     

  • 获取敏感词数

    String text = "我小时候有个朋友叫张三,现在和他几乎没联系了";
    int result = filter.wordCount(text);

     

  • 获取敏感词列表

    String text = "我小时候有个朋友叫张三,现在和他几乎没联系了";
    List<String> words = filter.wordList(text);

     

  • 增加白名单功能

    - blacklist.txt
    - whitelist.txt

     

  • 增加方法重载

    - replace(final String text)                     // distance=0&symbol=*
    - replace(final String text, final char symbol)  // distance=0
    - include(final String text)                     // distance=0
    - wordCount(final String text)                   // distance=0
    - wordList(final String text)                    // distance=0

     

  • 增加在线添加敏感词方法

    //此处将5000加入黑名单
    context.addWord(Collections.singletonList("5000"), WordType.BLACK);

     

  • 增加在线删除敏感词方法

    //此处将5000移出黑名单(若黑名单没有该词组将忽略)
    context.removeWord(Collections.singletonList("5000"), WordType.BLACK);
    //此处将紧急事件移出白名单(若白名单没有该词组将忽略)
    context.removeWord(Collections.singletonList("紧急事件"), WordType.WHITE);
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2019/07/27 20:54

基于DFA算法实现的敏感词过滤

本文转自浅析敏感词过滤算法(C++),自己也在其基础上根据自己的情况做了一点修改。 https://blog.csdn.net/u012755940/article/details/51689401?utm_source=app 为了提高查找效率,这里将敏感词用树形结构存储,每个节点有一个map成员,其映射关系为一个string对应一个WordNode。 比如敏感词库里面有枪手、手枪这几个词,读入后就变成了如下图所示的树状结构。 STL::map是按照operator<比较判断元素是否相同,以及比较元素的大...

0
0
2020/11/24 17:33

宏基因组基因集去冗余:CD-HIT

很多情况下由于内存限制等原因无法将多个样本混合在一起拼接,这样每个样品单独拼接、预测获得的基因集在合并分析时可能会有很多冗余。要构建多个样品、多个项目的非冗余基因集,需要根据一定的相似度阈值对不同样品的基因序列进行聚类。常用的软件有CD-HIT、MMseqs、Linclust等。 宏基因组分析Pipeline 测序数据的解析:Fastq与FastQC 测序数据的质控:Trimmomatic! 宏基因组reads筛选:去除宿主序列 测序数据的组装:常用软件...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
13 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部