text-classifier-collection 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
text-classifier-collection 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
text-classifier-collection 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
text-classifier-collection 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
text-classifier-collection 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 GPL
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 chanchungkwong
适用人群 未知
收录时间 2018-05-21

软件简介

text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类器

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 可自动按给定数据集选取最优分类器

    • 与Java8引入的流和函数式API无缝结合

效果

数据集 样本数 分类数 准确率
YouTube Spam Collection 1956 2 92.1%
SMS Spam Collection 5574 2 98.2%
Sentence Classification 1510 5 80.4%
Reuters-21578 Text Categorization Collection 21578 135 59.8%
Reuters-21578 Text Categorization Collection 21578 175 67.8%
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2018/09/12 21:12

Training a classifier

你已经学习了如何定义神经网络,计算损失和执行网络权重的更新。 现在你或许在思考。 What about data? 通常当你需要处理图像,文本,音频,视频数据,你能够使用标准的python包将数据加载进numpy数组。之后你能够转换这些数组到torch.*Tensor。 对于图片,类似于Pillow,OPenCV的包很有用 对于音频,类似于scipy和librosa的包 对于文字,无论是基于原生python和是Cython的加载,或者NLTK和SpaCy都有效 对于视觉,我们特意创建了...

0
0
发表了博客
2019/09/24 18:12

Maven 的 classifier 的作用

原文地址:https://blog.csdn.net/liupeifeng3514/article/details/79733655 直接看一个例子,maven中要引入json包,于是使用了: <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.2.2</version> </dependency> 可是,当执行mvn install 命令时,却抛出一个错误,说找不到net.sf.json-lib:json-lib:2.2.2这个包,到仓库中看一下http://repo2.maven....

0
0
2020/08/27 20:29

如何启用SAP C4C自定义BO的Text Collection功能

My series of Cloud Application Studio Blogs How to detect EditMode in an Embedded Component Step by step to enable your custom BO with attachment upload functionality Step by step to create an Adobe Print form in Cloud application Studio How to render PDF which displays picture from the image attachment of your custom BO How to get current logged on business user’s employee information and as...

0
0
发表了博客
2018/04/10 09:04

Maven classifier 元素妙用

首先来看这么一个依赖 <dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.4</version> </dependency> 看似没问题吧?你觉得能下得下来吗?答案是否定的,下不下来。 来看看Maven的文件索引目录: Index of /maven2/net/sf/json-lib/json-lib/2.4/ ../ json-lib-2.4-jdk13.jar 2010-12-14 05:39 158091 json-lib-2.4-jdk...

0
0
发表了博客
2020/01/20 22:08

Linear Classifier:线性分类器

1. 线性分类器:通过线性映射,将数据分到对应的类别中 ①线性函数:f(xi, W, b)= W * xi + b W为权值(weights),b为偏移值(bias vector),xi为数据 假设每个图像数据被拉长为一个长度为D的列向量,其大小为[D x 1];W是大小为[K x D]的矩阵,b是大小为大小[K x 1]的列向量 以CIFAR-10为例,xi包含第i个图像的所有像素信息,这些信息被拉成为一个[3072 x 1]的列向量,W的大小为[10 x 3072],b的大小为[10 x 1] 因此,307...

0
0
发表了博客
2018/07/03 16:54

机器学习算法 --- Naive Bayes classifier

一、引言   在开始算法介绍之前,让我们先来思考一个问题,假设今天你准备出去登山,但起床后发现今天早晨的天气是多云,那么你今天是否应该选择出去呢? 你有最近这一个月的天气情况数据如下,请做出判断。 这个月下雨的天数占10% 这个月早晨是多云的天数占40% 在下雨的天数中早晨是多云的占50%   如果有普通本科的概率论知识,这个问题就不难解决,计算一下今天会下雨的概率,然后根据概率决定即可。解决方式如下:    ...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
17 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部