对现有数据库的分析和下一步的基本预案

胡瀚中 发布于 2011/02/05 13:33
阅读 807
收藏 2


一.当前数据库基本情况
从2007年,我台首创公众资讯平台以来,已累积三年数据。目前,主表有两个36G的mdf文件,已经比较庞大。
荆视公众资讯数据库,在日常工作中已经发挥了巨大的作用。
但随着时间的推移,数据库越来越庞大,且由于前期工作处于摸索阶段,需求也是在工作中逐步明确与升级的,原有数据库结构已经不再适应现阶段的工作需求。
同时,由于录入员不是技术员出身,(从人力资源角度,也不可能要求录入员是技术员出身),事后也没有专业人员进行数据的格式化整理,不少信息在上载时,就是未经拆分并且语义含糊的,有用信息与无用信息杂糅在一起,相同的字段或者要表达的意思使用了多种同义词或者近义词在表述。
目前,现有数据库在应用层面上,很难满足即时提取信息,及时锁定互动对象的需求。
二.当前已经提升了的需求
㈠锁定互动对象
节目互动希望一旦有观众来电,就可以即时自动提取该人的历史互动记录。
以求在节目中锁定互动对象,增强互动的粘度和亲和度。
必须要达到在节目中,有任何来电,只要是他曾经与我台沟通过,就能瞬间调用其历史资料。
㈡即时回复
相当多的互动资讯,其实是类似的,如果能即时调用历史纪录。就可以更快地回复,即时形成回路。
并且可以类似于移动12580,开发有问有答的三农或其他项目的互动产品。
这样的需求,是不可能采用sql语句来完成及时调用,即使能,也不可能由非技术人员瞬间完成。所以,必须应用搜索引擎技术。
同时,作为一个有价值的数据库资源,它所实现在不仅仅只是简单的查询。它需要在一定场合里,在应用层面上,有数据分析以及所谓的数据挖掘的需求。
比如:要搜索种植棉花面积在5亩以上的农户的情况,而其中使用某品牌农药的有多少?分布区域在哪里?其中月收入在2000元以上的人有多少?棉花占其全年收入的比例多少等等。
这些应用,都需要对原始数据进行抽取,计算和应用,甚至会要求即时生成图表等等。
这些应用都需要对现有数据库进行整理,进行二次开发。
并且,尤其是要建成台里信息库的搜索引擎,以搜索引擎(尤其是其中的全文检索)技术为基础,来提升我台数据库的应用。
具体有几项技术要点
㈠搜索完成应是毫秒级的;
㈡以相关度为原则,对搜索结果应有排序;
㈢所搜索的关键词,以高亮显示。
㈣部分明确字段的信息,可以做到自动弹出。
㈤能够与直播平台、sp平台等无缝联接,达到应用级别。
㈥不同数据库,甚至不同类型的数据库能够进行自由转换,自由应用。
二、目前数据库分析及可能技术方案分析
当前数据库示例
示例一:
【江陵县熊河镇荆干村十一组冷文高,男,28岁,在是建筑包工头,现在快过年了就没有接活了,月收入:3000元,家里有七口人,父母在家务农,种了八亩农田,主要是种植棉花和水稻,爱人在外打工,今年四岁,一直都是由父母照顾的,弟弟和弟媳在广东打工,因为他刚从外地打工回来,村里的情况不是很了解,平常喜欢看《垄上行》和《江汉风》,家里安装的是室外天线,只能收到荆视的三个频道和附近的几个频道,家里的家用电器只有电视机和影碟机,其他的都没有。电话:15927766081(许丽君)来电(2011-01-0619:02:41.0)责任人:许丽君】
在这一行数据里,包括了:地址、姓名、性别、年龄、身份、月收入、家庭人数、家庭构成、务农种类,主要种植品种、配偶情况、子女年纪、亲人情况、爱看节目、使用的是什么电视接入终端、家用电器情况、联系电话、录入时间、录入人姓名等字段。
同样的观众信息收集中,不同的录入人员,用词不一致。包含字段不一致。
示例二:
【松滋市wei水镇的付先生问:将村里的砖瓦厂买下,砖瓦厂的房子是自己的,有承包合同,没有承包期限,现在村里要将土地收回,并将砖瓦厂拆掉,村里是否应该予以补偿?(彭姗姗)
湖北思捷律师事务所许圣国律师回复:如果双方没有约定承包期限,按照《合同法》规定发包方只要给承包方一个合理的准备时间,可以随时终止合同,如果没有约定,可以不予补偿。
荆州区川店镇的索女士问:小孩还没有上户口,出生证明上的名字能不能更改?(彭姗姗)
荆州区公安局回复:可以到小孩出生的医院更改。8420995
石首市桃花山镇的吴先生问:儿子和儿媳是2010年3月份领的结婚证,现在已怀孕2个月,去计生办领准生证时,工作人员要求按怀孕时间罚款,每月 200元,是否合理?(刘佳)
石首市人口和计划生育局回复:不合理,如果双方都属于初婚,在小孩出生之前办理准生证不用交罚款。7272612
(2011-01-2510:41:02.0)责任人:韩珍帼】
这些多条信息,不仅问题与答案均在一行之中,而且,是多条信息混在一起。提取时相当困难。
可能的技术方案
我们原计划采用导出各单条数据为纯文本,并制定一定的规则,采用人工方式重新整理数据库。
但由于原始数据库的两个主表均已经达到36G的容量。采用人工方式整理,将是一项漫长的不可能在有效时限内完成的任务。
且由于信息的杂糅,及多种同义词、近义词的使用,仅仅采用数据库搜索技术,也无法检索不清晰的信息来源,即使使用复杂的数据库查询语句,依然无法完成对数据的模糊搜索与提取。
且由于录入词语欠规范,也需要同义词解析等语义学方面的索引支持。在搜索过程中,如果不采用分词库,如果不包含一定的智能分析,不采用全文检索技术,将无法在毫秒级标准,提取到准确的有价值的信息。
故,我们认为只有应用到站内搜索引擎技术的全文检索技术可以完成数据的及时提取。
简单的数据库调用和操作,无法调用数据并解答问题,需要进行数据分析,也须以全文检索为基础。
我想了解的问题是:
1.此情况是否只有采用全文检索技术?
2.我从网络了解的情况,基本都是与lucene相关的族群才能解决,这个认定是否正确?现有的全文检索技术,多以lucene为基础,有compass和solr等封装产品。
似乎solr更为合适?
3.采用了这样的产品,有没有可能将原始库整理成为合乎规格的能够好好应用的库?
4.我希望接识能够解决本案的朋友,希望能够实名制地互相了解。
项目的优化,是有可能向台领导争取资金的,也就是说,将来,它有可能成为发包的项目。
即使不是如此,我作为一个较为合格的写手,我们之间也可以劳务互换。我学习搜索优化多年,但更多是文科方面的优秀。
www.hubeiseo.org 是我的站,也老久不更新的了。
但是,能够为你做点什么,我也是很乐意的。
再次感谢站长,并祝朋友们新年好。

加载中
0
liubaoxiong
liubaoxiong

首先,湖北的帖子,帮顶一下了。
这个案例,在某些国外商业产品中部分功能已经实现了,国外的叫法不一样,具体资料现在不在手上,也是2,3年前推出的产品,主要是用于企业内部海量无规则数据检索,但是国内具体的应用案例及情况不清楚。
纯语义检索,个人觉得还难以满足商业个性化需求,当然也请高手指点。因工作关系,也比较关注这方面的解决方案。

个人觉得你现在的难题是,选型一款搜索引擎,在达到性能需求的前提下,如何对原有数据进行拆解挂接,然后二次开发应用需求。

0
a
andreyanga

技术只是某个方法论的子节点,某些方法论构成一个解决方案

你这个小问题最简单最直接的方法论是分段,某个提取规则先提取大部分,然后再用另外一个方法提取剩下的大部分,依次类推

上来就钻到研究技术途径,思维层次有些平面化了。

0
红薯
红薯

就算用了全文搜索技术,数据的整理也是必须先要保证的,搜索必须基于良好数据结构的基础上。

0
返回顶部
顶部