大数据与信息化系统设计的难点

中山野鬼 发布于 2013/08/24 14:40
阅读 1K+
收藏 1

我想先明确一下大数据计算的定义,虽然有其它的定义。大数据不是“大量数据”的计算。而是计算系统未知数据规模下的计算。

简单说,你有一张表,100万条纪录,你说不算大数据,但你有10亿条纪录,就算大数据。好吧,如果你这么认为,那么这样的大数据,用拆表,集群并发,预处理等技术均可以有效解决。假设这些也是“大数据”处理。这么说来,我觉得wiki算大数据了。哈。

那么有另一类“大数据”计算,他们有如下性质:

1、计算方法确定(这是废话,当然计算方法确定,不代表计算流程不可选择,也不代表计算结点不能再组织)

2、数据规模和来源不确定

3、计算终止不确定

简单说,百度和google从搜索网页,针对你输入的关键词。你并没有明确计算是针对哪些网页,如果只是一个要求“尽可能”或“所有可搜索到”。这类设计要求,就针对了性质2和性质3。

性质2和性质3的难点或者问题,还有差异,性质3带来的研究问题在于已知计算规模(可能是无限的)下,已有计算结果是否可替代完整计算。因为确实有些情况,完整计算是不可计算的,例如待计算数据的产生速度远大于计算速度。

性质2的难点或问题,主要在于数据规模和数据来源是动态的,例如:市长说,发大水了,我要看所有桥隧的视频。按照行政管辖区域来界定?如果一个桥隧是两个行政管辖区域之间,是否将这个数据作为来源导入?

性质2还会隐含另一个问题,这就是信息化系统设计方法带来的。

信息化系统设计,不纠结信息和数据的文字描述了,通俗的说,我关心的数据就是信息,不关心的数据就是垃圾。垃圾是不会保存在数据库里的。那么带有完整性的数据就会被不同的信息化系统割裂。简单说大家都有身份证,但你的很多数据被不同信息化系统管理。例如你的婚姻是民政,你的户口是公安,你的房产是住建,等等。每个信息化系统,不会去额外保存不属于该系统的数据,因为这是垃圾,而且即便谁好心记录了你的数据,也不能用,只能参考,因为它不是该数据审核鉴定的部门。

再例如,城管发现车辆违停,城管通过车牌调不到车主其它资料,因为这是公安的车管所的事情,但城管有时不得不管,交警只管道路,马路牙子下的事,马路牙子上面的事交警无法管。

性质2的问题是,在确定需求时,数据未必在我的信息化系统中,这个和目前这里绝大多数网友设计的前后台系统并不一样,你无法通过本系统(无论是本地服务器还是其它网络服务器)获取到。需要到别的信息化系统里获取。

放开“官僚主义”的讨论,就是给你开放了信息化系统,你可以去查询,但是每个其它部门的信息化系统对数据的组成格式,数据的内容并非标准(无法标准,因为是由业务需求决定的)(本身有信息化设计建模时产生,做系统设计,无法,也没有必要去考虑未来路人甲的特定需求)。单纯手工调记录,是可以的,自动的调记录就产生了问题。主要问题如下:

假设部门A需要额外数据d,被分散在其它3个部门B,C,D中,后者每个部门对应d 的内容分别是 B(d) C(d) D(d)。对应A(d) “属于” 后三者的并集(如果不属于就麻烦了),但后三者相互的交集并非空,非空也无所谓,冗余项的去除,但核心问题是,不同来源的数据对应的相同项内容不一样,该取哪个?或许说,谁是主管部门,听谁的。(这样实际还是有些小问题),但到此为止,此时部门a的信息化系统,看似可以通过计算解决问题。但这个问题的需求是动态的。

你在一个封闭的数据池中做处理,可以框定客户的需求类型,并组织对应计算,但你在开放的数据池中,如果也是静态的根据各种数据是否可获取,数据来源所对接的外部具体信息系统,来依次罗列设计,这个系统的设计几乎是不可完成的任务,因为需求方往往自己也想不出还有哪些组合可能。

大数据和传统信息化设计的难点,主要在于数据和信息的差异上。传统信息化的设计,围绕信息,就如同面向对象的思想,构造类一样,以数据建模为起点。大家做系统,是不是在架构设计后,具体计算处理设计前,先确定数据表的组织形式。 这会导致数据被信息化。本身信息化系统,这个过程是必须的,这也是信息资源规划中,主题数据库构造的过程。但这种由本系统目标确定的信息化工作,在对于信息化系统之间需要动态对接时,就形成了封闭作用。这也是信息孤岛的核心问题。

解决这个问题,实际是,你的信息化系统,可以有你自己的结构设计,但你的数据来源在外时,你需要存在一个和标准数据对接的功能。不太恰当的比方,如同你无论在家是用杯子、碗盛水,无论你用水做什么,你家总要有标准的水管,和上水系统对接。其实这里也已经谈到了云计算的一些概念。

云计算,如果只是个网络存储服务器,或者开放个远程主机,好吧,他们也叫云计算。但无法做到,你的一个需求,实际是由多个不同系统联动依次组合实现。这里不去反驳某些云计算中心,是否算云计算,简单说下面一个例子:

你买房了,如果这个城市允许,你可以把户口调到本地。你要打交道的是公安,公安需要你的房产证原件。如果哪天你只需要带上身份证,去公安系统,告诉它,我要把户口迁到刚买的房子里,其它证明都不需要,好的,那么表示跨部门的系统真的对接了,而且这种对接设计时,不会考虑你的情况,但最终可以解决你的情况。这是另一种云计算能帮你实现了。

如果只是开个服务器托管,你可以在上面写代码,你可以在上做主页,你可以把一些计算手工搬到它的物理设备上运行,这样的云计算,要实现上面的云计算,恐怕还需要再构造个云计算(更上一面的逻辑层),这中间,就涉及到大数据与信息化设计之间的问题。

加载中
0
88250
88250
不明觉厉。
0
宏哥
宏哥

如果么有在关系型数据方面的积累, 谈大数据, 是空谈

至于数据源的问题, 是一个更复杂的问题

大多谈大数据的, 都是连数据都没有的家伙吧

0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

如果么有在关系型数据方面的积累, 谈大数据, 是空谈

至于数据源的问题, 是一个更复杂的问题

大多谈大数据的, 都是连数据都没有的家伙吧

大数据未必是结构化数据。非结构数据需要由专家系统对接。简单说,你的视频解码引擎就算一种对视频流数据的专家系统。

如果是结构化数据,多多少少好办点,但仍然存在获取数据结构和主体数据库数据结构差异,而需要转换的问题。主题数据库的数据结构这个由业务驱动可以获得,但外部数据结构,这个需要由脱离于具体业务需求的标准来约束。


0
mallon
mallon
做了再总结吧
0
中山野鬼
中山野鬼

引用来自“Mallon”的答案

做了再总结吧
做得有框架。哈。这谈不上总结。无非问题呈列。哈
0
宏哥
宏哥

引用来自“Mallon”的答案

做了再总结吧

我就是这个意思. 

行难, 性难

0
gvim
gvim

其实大数据bigdata就是个比data warehouse和data mining更商业化的名字,data warehouse和data mining这个词更偏向理论界,是支撑,bigdata如同cloud一样适合做商业推广。data warehouse有一套成熟的方法论和商业产品来做数据源处理,很多ETL工具可以选择。data mining更多的是模式的识别pattern recognition和对新数据的学习。所以这里面的难点在对目标业务领域的理解和它之后多维度数据模式的识别,涉及向量分析和数理统计,这已经不是计算机的学问了。当然,辅助大数据计算的并行框架到是计算机领域擅长处理的东西。

所以,“大数据和传统信息化设计的难点,主要在于数据和信息的差异上。”只是个一叶障目的说法。

0
宏哥
宏哥

引用来自“gvim”的答案

其实大数据bigdata就是个比data warehouse和data mining更商业化的名字,data warehouse和data mining这个词更偏向理论界,是支撑,bigdata如同cloud一样适合做商业推广。data warehouse有一套成熟的方法论和商业产品来做数据源处理,很多ETL工具可以选择。data mining更多的是模式的识别pattern recognition和对新数据的学习。所以这里面的难点在对目标业务领域的理解和它之后多维度数据模式的识别,涉及向量分析和数理统计,这已经不是计算机的学问了。当然,辅助大数据计算的并行框架到是计算机领域擅长处理的东西。

所以,“大数据和传统信息化设计的难点,主要在于数据和信息的差异上。”只是个一叶障目的说法。

这个才是符合两个凡是的回答.

关系数据换个碗而已

0
中山野鬼
中山野鬼

引用来自“gvim”的答案

其实大数据bigdata就是个比data warehouse和data mining更商业化的名字,data warehouse和data mining这个词更偏向理论界,是支撑,bigdata如同cloud一样适合做商业推广。data warehouse有一套成熟的方法论和商业产品来做数据源处理,很多ETL工具可以选择。data mining更多的是模式的识别pattern recognition和对新数据的学习。所以这里面的难点在对目标业务领域的理解和它之后多维度数据模式的识别,涉及向量分析和数理统计,这已经不是计算机的学问了。当然,辅助大数据计算的并行框架到是计算机领域擅长处理的东西。

所以,“大数据和传统信息化设计的难点,主要在于数据和信息的差异上。”只是个一叶障目的说法。

这两个仍然是信息化系统。我不反对别人对大数据的定义,各有各的研究点,只要研究点来源于社会,来源于生活。政府的信息系统是很有研究的。一个政府的朋友说,(系统方案商)别说那么多理论和产品多么好,你能把公安系统的车牌信息,调给我城管,我就觉得是是一大进步。

这句话看似简单,而且给别人感觉是行政问题,其实不是行政问题。如果公安和城管合并起来构建更大的数据仓库,今天这个需求可以了,明天和住建的数据又有需求了,是不是再重新构建一套信息化系统?而且每个部门,因为和其他部门互通,都要求重建?

这中间实际问题是数据与信息并不是一致的,他们需要剥离,进行分别设计与实现。你说的上面的工具,只是工具。这些工具本身起不了任何作用。如同数据总线的工具,简单一句话“可以让各个系统互联”。废话,我传递文件一样可以互联,然后呢,就没有然后了。其他信息化系统约束出来的文件格式,还是要做转译,等于没有解决任何问题。

中山野鬼
中山野鬼
回复 @gvim : 好吧,那数据仓库的建模是怎么分析?这块本身已经有分析方法放那了。对应的就是信息资源规划的理论。
gvim
gvim
回复 @中山野鬼 : 服了你了,信息规划和数据仓库扯的什么跟什么,领域都不同。。。所谓基础也只是你自己说的吧。算了,等懂的人来评价吧。
中山野鬼
中山野鬼
回复 @gvim : 那反过来你先了解下信息资源规划吧。这个是数据仓库的基础。哈。不过现在有些问题已经超越了信息资源规划理论可以解决的范畴。目前国际上有专门研究这块的,由于比较新,对应的很多东西都没出来。
gvim
gvim
你先了解下数据仓库和ETL在思考吧,呵呵,思而不学则殆。都说了是一套通用的方法论和相关产品,谁说扩展的时候就要新建一套信息系统来的?!
0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

引用来自“gvim”的答案

其实大数据bigdata就是个比data warehouse和data mining更商业化的名字,data warehouse和data mining这个词更偏向理论界,是支撑,bigdata如同cloud一样适合做商业推广。data warehouse有一套成熟的方法论和商业产品来做数据源处理,很多ETL工具可以选择。data mining更多的是模式的识别pattern recognition和对新数据的学习。所以这里面的难点在对目标业务领域的理解和它之后多维度数据模式的识别,涉及向量分析和数理统计,这已经不是计算机的学问了。当然,辅助大数据计算的并行框架到是计算机领域擅长处理的东西。

所以,“大数据和传统信息化设计的难点,主要在于数据和信息的差异上。”只是个一叶障目的说法。

这个才是符合两个凡是的回答.

关系数据换个碗而已

你把很多问题想的简单化了。。。很多跨系统的信息整合,整合半天无法实现,抛去行政问题,安全问题,利益问题之后,里面还是藏着实现问题。
返回顶部
顶部