17
回答
这样的垃圾内容怎么做敏感字检测?
华为云实践训练营,热门技术免费实践!>>>   

如图所示,大家有什么妙招?

<无标签>
举报
红薯
发帖于3个月前 17回/396阅
共有17个答案 最后回答: 3个月前

String[] arg = dblToString4.split("口");
if (arg.length > dblToString4.length() / 3) return true;

--- 共有 3 条评论 ---
壶漏子 回复 @红薯 : 没有最完美的,只有比较好的,比如去掉频率最高的,当然关键字也可能是敏感的。 3个月前 回复
壶漏子 回复 @红薯 : 还指望两行代码能送你到北京,哈哈。 3个月前 回复
红薯用脚丫子想你这个方法不靠谱 3个月前 回复

可能的办法。

1,计算出重复最多的字符,空格除外;

2,如果这个字符是非常用的字符则可疑度++;

3,字符串替换,将这些垃圾干扰字符去掉;

4、使用分词算法,将词性相同的词字符串拼接起来;

5、敏感词黑名单检测,敏感词命中率越高,可疑度越高。

6、可疑度太高了,要人工审核才显示。

--- 共有 2 条评论 ---
OSC_HUAcok年轻人啊,红薯是在发福利给大家,意淫啊,小伙子。 3个月前 回复
蓝水晶飞机不确定,仅仅是个人的一个想法,有错请指正。 3个月前 回复
像百度贴吧一样,出现了过多字符,标点符号,表情,还有一些自造字(有些自造字会把两个字合成一个字逃避关键词审查),系统就先把它删了。如果发送者认为内容正常,可以申诉。对经常发送优质内容的用户,可以加白名单。
顶部