17
回答
这样的垃圾内容怎么做敏感字检测?
终于搞明白,存储TCO原来是这样算的>>>   

如图所示,大家有什么妙招?

<无标签>
举报
红薯
发帖于1个月前 17回/340阅
共有17个答案 最后回答: 2周前

String[] arg = dblToString4.split("口");
if (arg.length > dblToString4.length() / 3) return true;

--- 共有 3 条评论 ---
壶漏子 回复 @红薯 : 没有最完美的,只有比较好的,比如去掉频率最高的,当然关键字也可能是敏感的。 1个月前 回复
壶漏子 回复 @红薯 : 还指望两行代码能送你到北京,哈哈。 1个月前 回复
红薯用脚丫子想你这个方法不靠谱 1个月前 回复

可能的办法。

1,计算出重复最多的字符,空格除外;

2,如果这个字符是非常用的字符则可疑度++;

3,字符串替换,将这些垃圾干扰字符去掉;

4、使用分词算法,将词性相同的词字符串拼接起来;

5、敏感词黑名单检测,敏感词命中率越高,可疑度越高。

6、可疑度太高了,要人工审核才显示。

--- 共有 2 条评论 ---
OSC_HUAcok年轻人啊,红薯是在发福利给大家,意淫啊,小伙子。 1个月前 回复
蓝水晶飞机不确定,仅仅是个人的一个想法,有错请指正。 1个月前 回复
像百度贴吧一样,出现了过多字符,标点符号,表情,还有一些自造字(有些自造字会把两个字合成一个字逃避关键词审查),系统就先把它删了。如果发送者认为内容正常,可以申诉。对经常发送优质内容的用户,可以加白名单。
顶部