数据挖掘,BI,知识管理的讨论

中山野鬼 发布于 2012/07/04 20:20
阅读 2K+
收藏 6

今天和个朋友谈到数据挖掘,结果被映射到BI上。认识差异挺大,他说我的理解,我说的他认同,但是一个人认为是一回事,一个人认为不是一回事,显然我是后者。哈。由此讨论下,数据挖掘,BI,知识管理,三个东西的区别。

BI,商业智能系统。这个和数据挖掘有联系,因为BI即是个管理系统,中间也包含了数据分析引擎,和数据挖掘模块,且不谈这个模块做的好坏。

WIKI的描述(一般我认为这算非教科书外,权威言论)

”商业智能通常被理解为将企业中现有的数据转化为知识, 帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数 据,以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。“

其首先定位于商业数据处理,其次定位于计算机辅助决策系统,因此也可以叫作,商业信息辅助决策系统,如果直接说,商业决策系统,估计没哪个甲方愿意购买,是人管设备,还是设备管人?是董事会或执行团队权利大,还是这个系统的权利大?所以要有辅助两个字。

其本质上说,是个信息化的系统。即,知识,数据,通过信息化手段进行流动和利用。除去数据挖掘模块外,其本身并不是个数据分析系统。更侧重于一个综合的管理系统(当然不是企业的管理系统软件)有知识管理系统的概念,但更多是商业数据的管理。

而数据挖掘,更多的是一个独立的功能性模块。数据挖掘系统,即便成系统,辅以的也是数据的来源,计算,存储等一切围绕数据分析工作展开的配套系统。如果一个数据挖掘系统,需要人为的干预或介入,只能说是个辅助的计算系统,或辅助的数据分析工具。如果一个数据挖掘系统,在计算过程中(不是计算方法的设计过程,运算过程),需要人为介入干预,则这种数据挖出来,注定含有主观的因素,而不是客观的数据体现。这和问卷调研中,答案只有两个,喜欢,很喜欢,由此得出,绝大多数人都喜欢这个产品是一个后果。”毫无意义“。

知识管理系统,更是个信息化的系统,在于对数据(抽象的可以把知识看作数据),的有效整理,归类,推送。使得数据的价值化提升。但数据并没有加工出额外的信息,而是尽可能的去利用数据,发挥数据的价值。因此和数据挖掘没有关系。数据分析也谈不上。

经常我谈的数据挖掘,会被朋友搞混为BI,或知识管理系统,我觉得有两个原因,一个的原因是,对方把数据挖掘的模块,等同于我所谈的数据挖掘系统。如同我谈,一个包含集合的集合,前者是后者的元素,那么他们就混乱了,他们会说”你究竟是在谈元素还是在谈集合。你其实说来说去,就是在谈集合,扯什么这个集合在被包含的集合中,是元素的概念“。其实抽象的理解,集合就是元素,元素就是集合,在集合论中,我们可以定义一类集合,其不包含任何其他集合,此时这类集合就是元素。不过这种数学或哲理的东西,我要说出来,经常被当作脑袋坏掉的人看待。

另一个原因是,对数据挖掘的狭义理解和广义理解的差异。广义上认为,只要数据进去,和出来不一样,且出来的符合我的预期,就是数据挖掘。这么说我不反对,但这个和数据分析是一样的概念。

例如,我们要做个计算平均值的函数。这个函数就是个数据分析工具。通过计算。我们获得了样本的平均值,或者K聚类吧。 然后呢?如果把数据挖掘广义上和数据分析对等的朋友通常就”没有然后了“,”我得到我想要的啊。这就是数据挖掘“。OK,不纠结这句话对不对。这里说下,狭义的数据挖掘我的理解。

首先,挖掘是为了获取看不到的事物。否则,不是挖,坑里有东西,你直接提走的了。或许叫做”数据收割“更妥当,也区别数据采集。

其次,挖掘能得到有价值的东西,但需要注意,有价值的,未必是你想要的,或者你预期的。例如,你希望得到一类消费人群的消费习惯。如果只是数据挖掘,可能得出的结论并不是市场规划人员所期望的,但不代表这个信息是没有价值的。数据挖掘系统,到此为止,究竟这个信息,你是否认可,是否要修饰,是否要掩藏,是否要对应调用其他资源整合新方案,新决策, 这是BI的事情。我举另外一个极端的例子,我们通过谷仓的存储量,温度,湿度,去控制谷仓设备,以尽可能的防止谷物霉变,这是物联网的一个典型方案,到此不能说这是个数据挖掘系统。但是通过全国谷仓的现状,霉变的时间(例如3个月后霉变,还是2个月后霉变,今天有多少霉变,每个谷仓的存储数量),可以获得一个当前国家储备粮,和准流通粮的情况,从而动态得出当前谷物期货价格(注意不是现货,是预测未来必须要去流通(否则烂掉)的谷物来计算未来市场供需情况),这个就是数据挖掘了。因为存在关联和统计,而且你不能通过系统设置去人为介入计算。(当然这种数据挖掘项目不是一般企业能做的,直接涉及国家战略资源信息,IBM想做,在大陆也不会让他做)我就不知道。这个和商业智能管理有什么关系。因为后者只能辅助决策,而前者是可以具备主动权的。数据挖掘系统出来的信息,可能会呈现一种情况,直接决定决策,而不是配合其他,辅以决策。(当然,谈数据挖掘和决策的关系,跑题了)

总之,狭义上的数据挖掘,更多在于在性质上,而不单单在数值上,给与你有价值的信息。强调数据之间关联的综合分析,包括统计,而这种关联性并不是你能所预期的。

如果一个BI系统,存在一个数据挖掘模块,确实可以。获得了你不能预期的关联的综合分析结论,这个确实也可以,但对于BI系统并不会结束,其会根据已知不同的模块输出结构,给出明确的操作模式,因此,从BI系统整体上看,并不是数据挖掘系统(本身是个管理系统)。

绕来绕去,其实就是一句,数据挖掘系统是个准智能系统,但并不是BI,最多是BI中的一个模块或引擎,不能因为BI具备数据挖掘模块,就认为是个准智能系统,甚至可能因为BI的人为设计要求,导致准智能系统的数据挖掘模块在整个系统来看,并不能具备智能性,(存在选择性过滤的过程)。

加载中
1
宏哥
宏哥

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,由于数据库需要进行大量的基于维度的运算,就叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。 我并不是在做个出report的系统。我仅是在做个数据加工处理的机器。问这个机器有什么价值,相对加工出来沉淀的信息,这个机器毫无价值。如同腾讯的IM软件本身,和大家的QQ号相比,前者毫无价值。
0
宏哥
宏哥

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
简单对比,如果换15年前,我也做IM的话,我并不是做个IM软件,到处卖,而是做个IM软件做个平台提供服务。无非,用IM的人,会留下个号。如同数据挖掘,我不是去包装做个BI软件卖,或者卖个数据挖掘引擎。而是通过数据挖掘服务。能沉淀出数据。甚至不同用户来源的数据之间,存在二次再加工的价值。同时可以再反馈会给各个曾经的客户。但经常被理解为,我是想做个软件到处卖版权。。。。。
0
宏哥
宏哥

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
简单对比,如果换15年前,我也做IM的话,我并不是做个IM软件,到处卖,而是做个IM软件做个平台提供服务。无非,用IM的人,会留下个号。如同数据挖掘,我不是去包装做个BI软件卖,或者卖个数据挖掘引擎。而是通过数据挖掘服务。能沉淀出数据。甚至不同用户来源的数据之间,存在二次再加工的价值。同时可以再反馈会给各个曾经的客户。但经常被理解为,我是想做个软件到处卖版权。。。。。
钱呢? 来了没有?
0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
简单对比,如果换15年前,我也做IM的话,我并不是做个IM软件,到处卖,而是做个IM软件做个平台提供服务。无非,用IM的人,会留下个号。如同数据挖掘,我不是去包装做个BI软件卖,或者卖个数据挖掘引擎。而是通过数据挖掘服务。能沉淀出数据。甚至不同用户来源的数据之间,存在二次再加工的价值。同时可以再反馈会给各个曾经的客户。但经常被理解为,我是想做个软件到处卖版权。。。。。
钱呢? 来了没有?
哈。这个属于非公开信息。。。
0
宏哥
宏哥

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
简单对比,如果换15年前,我也做IM的话,我并不是做个IM软件,到处卖,而是做个IM软件做个平台提供服务。无非,用IM的人,会留下个号。如同数据挖掘,我不是去包装做个BI软件卖,或者卖个数据挖掘引擎。而是通过数据挖掘服务。能沉淀出数据。甚至不同用户来源的数据之间,存在二次再加工的价值。同时可以再反馈会给各个曾经的客户。但经常被理解为,我是想做个软件到处卖版权。。。。。
钱呢? 来了没有?
哈。这个属于非公开信息。。。
不要紧.我可以观察得出来.
0
中山野鬼
中山野鬼

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。
大多数人,所提的数据挖掘,分析,就是这个了. 我现在也搞不清你那个分析,分析啥.
简单对比,如果换15年前,我也做IM的话,我并不是做个IM软件,到处卖,而是做个IM软件做个平台提供服务。无非,用IM的人,会留下个号。如同数据挖掘,我不是去包装做个BI软件卖,或者卖个数据挖掘引擎。而是通过数据挖掘服务。能沉淀出数据。甚至不同用户来源的数据之间,存在二次再加工的价值。同时可以再反馈会给各个曾经的客户。但经常被理解为,我是想做个软件到处卖版权。。。。。
钱呢? 来了没有?
哈。这个属于非公开信息。。。
不要紧.我可以观察得出来.
不过很多时候,台上台下,进展不一。哈。
0
一千年前的人
一千年前的人

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。 我并不是在做个出report的系统。我仅是在做个数据加工处理的机器。问这个机器有什么价值,相对加工出来沉淀的信息,这个机器毫无价值。如同腾讯的IM软件本身,和大家的QQ号相比,前者毫无价值。

对BI的3类理解

1. OLAP

   这对大的业务系统, 如银行,电信,保险, 社保等, 因为业务系统非常大,能生成任意 管理人员和研究人员 想要的 统计报表, 就算BI。

2. BI 理论和公司

  BI理论:  聚集、回归、最近的邻居、分类树、神经网络、蚂蚁算法、啤酒纸尿布的故事 等等

  专业的公司和软件, 如SAS,18M cognos,SPSS

   因为随着软件应用的深入, 积累了越来越多的数据, BI分析得到越来越多的重视。

   18M除了五大产品系, 现在一个新的增长点就是BI, 所以花了上百亿$收购了很多家BI公司, 如cognos

3. 根据业务,专门定制的算法

0
宏哥
宏哥

引用来自“一千年前的人”的答案

引用来自“中山野鬼”的答案

引用来自“宏哥”的答案

来个专业点的回答: 

一般来说决策系统通过 OLTP(Online transitional processing system,ERP,CRM,POS等...)收集数据. 进行 E(extract)T(transfer)L(Loading) 产生DW(data warehouse), 这个DW上建立OLAP(Online analytically processing). 在OLAP 上进行 Dimension(维) and Measure(度) 做report. 而对于在这两个方向上建立的分析,叫做 Data Mining(数据挖掘), 那些report就是分析结果了,对于这些结果的分析,自然叫做数据分析,哈哈

哈。所以这些东西,是这些东西。我理解。但不是我在做的东西。 我并不是在做个出report的系统。我仅是在做个数据加工处理的机器。问这个机器有什么价值,相对加工出来沉淀的信息,这个机器毫无价值。如同腾讯的IM软件本身,和大家的QQ号相比,前者毫无价值。

对BI的3类理解

1. OLAP

   这对大的业务系统, 如银行,电信,保险, 社保等, 因为业务系统非常大,能生成任意 管理人员和研究人员 想要的 统计报表, 就算BI。

2. BI 理论和公司

  BI理论:  聚集、回归、最近的邻居、分类树、神经网络、蚂蚁算法、啤酒纸尿布的故事 等等

  专业的公司和软件, 如SAS,18M cognos,SPSS

   因为随着软件应用的深入, 积累了越来越多的数据, BI分析得到越来越多的重视。

   18M除了五大产品系, 现在一个新的增长点就是BI, 所以花了上百亿$收购了很多家BI公司, 如cognos

3. 根据业务,专门定制的算法

对于2, 我还真不知道这么多. 对我来说,就是选择维,度,过滤条件--> 结果. 感性认识.

对于3,不知道是不是野鬼在搞的.

一千年前的人
一千年前的人
回复 @宏哥 : Sure! 不仅仅是BI, 其他也应该这样。
宏哥
宏哥
回复 @一千年前的人 : 真的要做,一定从小范围产品化,再通用化才行
宏哥
宏哥
回复 @一千年前的人 : 我感觉 从use case来说,量还是比较大的. 而且各个维度组合. 直白说,就是有内生的复杂性在里面.
一千年前的人
一千年前的人
回复 @宏哥 : 做这个通用报表最大的难处是什么呢
宏哥
宏哥
回复 @一千年前的人 : 是的. 从技术角度说, 我理解的BI就是拼装SQL,展现出来.
下一页
返回顶部
顶部