想编写个小程序来删除TXT文件里重复的段落

猫丶 发布于 2011/05/28 19:14
阅读 864
收藏 0
最近用手机看小说,发现总有些讨人厌的符号和重复的段落,想编写个小程序来删除那些不愉快的东西,各位有什么建议?特别是怎么样选出重复的片段。     
加载中
1
红薯
红薯
这个得具体内容具体分析,没有固定模式吧
1
JavaGG
JavaGG

问题是怎选出你认为是垃圾的重复段落,总不能重复都删除吧

1
jinceon
jinceon
我想我明白你的意思。看小说的时候,都会有些【本文来自某某网站】等网站的广告,你直接用替换功能吧。把这些文字替换为空白字符串就行啊
0
猫丶
猫丶
嗯,我一直都在想呢  呵呵   怎么样做合理
0
x
xst
说的是广告这些吧,直接用记事本把那些全部替换成空就行。
0
夏小龙
夏小龙
去除特殊字符还好说点,但去除多余段落就不太现实了,起码你没法分出有用的和无效的段落......
0
草鞋
草鞋

哈哈,这个牵涉到人工智能呢

0
草鞋
草鞋
一个小程序可能解决不了,也可能一个大程序也不管用
0
xoHome
xoHome
如果段落完全一样为什么不能去掉? 首先进行记事本断章(根据换行或其它标志)然后记录每章的hash码,用Map做中间数据存储结构,只需要循环章节数次数就可去掉重复章节。
返回顶部
顶部