我也出一道面试题,看看面试官会不

把妹达人老张 发布于 2013/08/28 17:13
阅读 430
收藏 2

天天面试我,我出一道,看看哪个面试官会。而且是我遇到的问题。

用户表 (用户id,simhash值),文章表(文章di,simhash值),用户文章表(用户id,文章id,Hamming 

Hamming :海明距离。

用户表里有1w条数据,文章表里有100w数据。

现在要求计算,生成用户文章表1w*100w数据(貌似mysql存不下。。。。)。

计算规则,计算simhash的海明距离。

如果只求 与每个用户 与文章的海明距离 最小的2000个呢?1w*2000

大神不要挖苦我了。我知道关系型数据库不适合做这个。

除了双重循环还有其他方法吗?

simhash 会变的。而且每天都在变。

加载中
0
方棱
方棱

我会做一张"用户的Top10文章"表,数据量为1w*10。

再做一张"文章的Top10用户"表,数据量为100w*10。

这两张表,已经能满足99%的应用查询了。

在考虑难度之前,应该先考虑实际应用是否需要。

JPer
JPer
恰恰很多面试官问的问题不是实际应用的,
0
把妹达人老张
把妹达人老张

引用来自“方棱”的答案

我会做一张"用户的Top10文章"表,数据量为1w*10。

再做一张"文章的Top10用户"表,数据量为100w*10。

这两张表,已经能满足99%的应用查询了。

在考虑难度之前,应该先考虑实际应用是否需要。

那也要扫描1w*100w次
0
乐天无极
乐天无极

对simhash值做特征分割——先查部分特征,减少再次查询数据量,能做到极快的找到结果。

返回顶部
顶部