求助在做一个NLP 关于中国维修条数超过1000的自动关键词提取的,想问一下推荐的代码和方法

osc_75177737 发布于 09/30 10:40
阅读 1K+
收藏 1
希望这个模型可以:
 
通过供应商填写的“故障描述” 来提取有效信息,确定故障类型
 
初步可能先做清洗,把没有用的名词 副词清洗掉

 

剩下的再做分类
加载中
0
sprouting
sprouting

这不就是类似淘宝自动对评价进行分类,检索出关键字吗,比如,发货快,质量不行,服务态度好,价格便宜等信息。

先make,看下大佬们的方案

osc_75177737
osc_75177737
感谢指导我去找一下
0
陈沐

经典的做法可以分词,提取关键词(前提是有字典),然后对处理以后的文本进行分类。如果样本量比较大,分类类别不多的话,可以直接采用深度学习(如LSTM或者Bert)模型直接分类,一般情况都可以取得比较好的效果。

osc_75177737
osc_75177737
谢谢我去试一下
0
不会飞的小龙人

如果想简单的做法,就是维护字典(需提前设定好关键词分组|分类),通过正则表达式短语句结果匹配,再划分到不同分类下;

0
不会飞的小龙人

我们也试过,基于 Lucene|Solr引擎服务,在用ik中文分词(有字典),设定多组关键词组合标签模型,定时匹配在打标,效果也行。

osc_75177737
osc_75177737
对的,我刚刚试了一下,可能是我这边数字也有,英文也有,而且涉及到多国语言,现在还在想怎么处理语言问题
0
云沐
云沐

elasticsearch用ik分词器,效果还不错

云沐
云沐
回复 @osc_75177737 : ik没有安装包,就一个解压文件,解压后在es目录下的plugin,建个名称为ik的文件夹,然后把ik解压就好了
osc_75177737
osc_75177737
我ik点下载,但是在网上不知道为什么就是安装包一直失败,打不开
0
醉月问天
醉月问天

NLP自然文字分类吧,现在用ai训练已经完全可以给新闻分类,你这个想要的应该也可以用这种方式来训练分类

osc_75177737
osc_75177737
对我现在时使用了spacy这个code 在那个notebook里run,但是现在就是spacy老显示error
返回顶部
顶部