这样的垃圾内容怎么做敏感字检测?

红薯 发布于 2017/08/19 08:19
阅读 627
收藏 0

如图所示,大家有什么妙招?

加载中
0
如比如比
如比如比

String[] arg = dblToString4.split("口");
if (arg.length > dblToString4.length() / 3) return true;

如比如比
如比如比
回复 @红薯 : 没有最完美的,只有比较好的,比如去掉频率最高的,当然关键字也可能是敏感的。
如比如比
如比如比
回复 @红薯 : 还指望两行代码能送你到北京,哈哈。
红薯
红薯
用脚丫子想你这个方法不靠谱
0
红薯官方
红薯官方

可能的办法。

1,计算出重复最多的字符,空格除外;

2,如果这个字符是非常用的字符则可疑度++;

3,字符串替换,将这些垃圾干扰字符去掉;

4、使用分词算法,将词性相同的词字符串拼接起来;

5、敏感词黑名单检测,敏感词命中率越高,可疑度越高。

6、可疑度太高了,要人工审核才显示。

OSC_HUAcok
OSC_HUAcok
年轻人啊,红薯是在发福利给大家,意淫啊,小伙子。
红薯官方
红薯官方
不确定,仅仅是个人的一个想法,有错请指正。
0
AndyChuck
AndyChuck
像百度贴吧一样,出现了过多字符,标点符号,表情,还有一些自造字(有些自造字会把两个字合成一个字逃避关键词审查),系统就先把它删了。如果发送者认为内容正常,可以申诉。对经常发送优质内容的用户,可以加白名单。
0
风青山
风青山
道高一尺,水高一丈
0
小帅帅丶
小帅帅丶

调用百度ai接口识别出所有的文字。把频率最高的口去掉。再调用接口进行黄色鉴权识别

0
JPer
JPer

雇一个人,盯着看呗 :)

0
小埋酱
小埋酱
年轻人啊,红薯其实是在发福利
0
罗马的王
罗马的王

类似字符,直接删除,正常人都不会这么打字的。

0
啦啦啦拉拉
啦啦啦拉拉
最易用的那个聚类算法
返回顶部
顶部