百度文库的文档检测技术,求高手帮助!

enjoy 发布于 2011/09/25 18:01
阅读 638
收藏 2
大家都用过百度文库或者豆丁文档之类的文献网站吧,很多都是下载需要积分这种机制的。这些网站都能防止用户反复上传同一份文档,或者将文库中已有的文档再次上传。即使将文件的名称稍作改动,也能被检测出来,请问大家这是如何实现的?这技术是开源的吗?有源代码么?谢谢各位大牛。。好人一生平安。。
加载中
0
hello123
hello123
通过MD5或者CRC等算法对整个文章进行求值,如果文章内容没有发生改变则求得的值与原来的值一致
0
Lunar_Lin
Lunar_Lin
  你把文档修改一部分,改变下大小,修改名字 差不多能OK, 服务器无力做这么多的检查.
0
c
centerqi

在理论上是用相似文本这些技术可以实现的,你google一下相似文本这些技术。

如果完全是md5或者crc的方式的话,有点不太准备,因为这些技术没法区分相似度。

0
Tom-Lin
Tom-Lin

用 md5 可以实现。我们公司的文件上传(图片上传、资料管理、图书管理等)就是上传后,把 md5 计算出来,用 md5码作为文件名保存这个上传文件。而用户的文件名保存到数据库。这种做法有个缺点,就是不能做删除操作。因为你不知道哪里会用到这个文件。好处是,除了能保证服务器上的唯一文件外,还能防止用户上传一些病毒、exe 等程序而引发服务器的安全问题。

而关于用 md5 来保证文件的唯一性问题,可以参考国外的一些软件下载,他们一般都是提供一个文件的 md5 码,并让用户下载后验证这个文件的 md5 码是否和服务器上提供的一致,用于保障这个文件的内容没有修改过。

0
swanliu
swanliu
指纹技术。算文件的指纹可以有很多办法啦,简单点就是摘要。
返回顶部
顶部