数据挖掘和数据分析

中山野鬼 发布于 2013/07/31 01:48
阅读 788
收藏 10

很多人会把这两个混在一起,无论是混在一起谈,还是混在一起处理。数据分析,其实很明确,对数据样本根据公式进行处理,得到期望的值。公式明确,因此数据分析有几个典型的特征如下:

1、待处理数据明确。

2、处理方法明确。

3、处理结果的评价已经提前预设。

而数据挖掘,从挖掘角度讲,可以说个通俗的例子,我以前也说过。你向下挖,挖到萝卜,则对于要古玩的这是废物,你挖到破碗,对于要吃饭的,这是废物,但同样挖出来的东西,反过来给他们那么就有价值。

这个例子说明,数据挖掘是一个信息化的数据分析。这里说一下数据和信息的区别。记得去年在北京开会,无锡经信口的一把手,问过我这个问题,听说我是搞数据的,当时也没多想,后来发现表达的不够严谨,于是又专门研究和学习了一下,具体结论是:

数据是对外部客观的符号化记录 。或者说是符号化对外部客观的记录。

信息是主观对外部感知中的交换内容。

简单区分,剥离了主体的信息,则是数据,带有主观的数据则是信息。

数据挖掘之所以说是信息化的数据处理,是因为,数据挖掘的价值在于对客户需求的响应而不是数据分析本身。简单说是对客户主观与各种数据处理结果的匹配。

很多人一谈数据挖掘基本嘴不离分类,聚类,统计等。其实这些独立的看仍然属于传统的数据分析,包括数据处理的各种独立的算法本身也是数据分析类而非数据挖掘类。

数据挖掘,需要知道需求者的主观,简单理解就是我希望找到我所要的信息。抽象起来就是客户的需求转化成模式,,通过模式匹配算法,对这个数据处理的中间结果进行匹配。获取大置信度的结论。

数据挖掘的工作本身,并不在于数据处理,无论是分类,聚类,而是在对这些分类聚类的算法及其计算的中间结果的调度和再组织计算上。如同今天你想查一下,通过人脸识别,频繁在银行门口的人的身份。明天你想查一下考试中处于作弊姿势的学生与实际作弊的关联。数据挖掘的需求是存在上下文的,也即存在主观构造的环境背景的,而实际数据是客观的记录中间并没有一一对应关系。同时,如果简单的认为,今天我有个需求,于是静态的组织各种的数据处理方法完成,那么这不是数据挖掘,这是传统的确定模式下的匹配分析计算,也即传统的专家分析系统。

为什么说不是数据挖掘,是因为,你对数据进行分析时,已经固化带有了含主体需求特性的特定模版,如同滤波一样,你需要高频,你把低频滤掉了,如果这时数据挖掘系统,明天有人需要低频,你能挖出来什么?挖出来一堆别人不需要的信息。

数据挖掘系统的难点主要在于数据组织上。为什么说关系性数据库很难或不适合做数据挖掘,是因为关系性数据库是建立关系模型上的。各种数据的关系模型相对是固定的,如同sql语句的一堆where。关系性数据库可以解决很多问题,但不是万能的。对动态可变的处理需求,就存在架构性的缺陷。一个简单例子,假设2个数据挖掘的需求,1需要a,b两个项的关联,2需要b,c两个项的关联。他们看到的先是一张表中,列与列的关系,随后才是行与行的关系。而且列与列的关系是动态的。传统按行存储和组织数据库分析的系统,就存在致命缺陷。几张表好高,随着动态关联增多,多个表内的多个项之间的关联形成一张动态大网,就知道悲催了。你对任何的关联处理都存在sql语句对应。于是你有一堆堆的sql语句,有oser朋友说见过几百行的单条sql语句,其实这个本质就是关系性数据库对特定问题处理的架构性缺陷。当表项关系足够复杂甚至动态时,用sql的方式处理,就是灾难。

数据挖掘对于数据的组织,实际还是从数据理论的中的数据相关性,数据完整读,数据一致性,数据生命周期等几个方面来组织。讲数据挖掘的需求,和数据处理的方式进行隔离,通过中间的匹配表,对规整后已的处理的数据进行匹配获取结果。这方面,美国的比尔。恩门,提出的按照主题域的方式规整出数据仓库,就是希望能对一类具备相同主题或上下文背景的信息做规整,以方便后续的数据分析和数据挖掘。但比尔。恩门的理论存在的问题在于,他仍然是基于信息的处理,因此是信息化资源规整的理论。而差异的主题数据,实际可能源于相同的客观数据,而完整的客观数据属性对应的项又可能分布在不同的主题数据库中。实际比尔。恩门提出的数据仓库仍然是信息仓库,其下还有个不以主题,而以客观记录为基础的“数据仓库”。

数据挖掘系统一个简单的特征就是存在数据分析缓冲,数据分析的结论,作为数据挖掘对的组织源进行再组织,获取结论后给予客户。而不是分析完客户的需求后,到处收集规整数据再进行特定计算。记得前面的定义,数据是对外部客观的符号化记录。数据具备不以任何主观为条件的自有特性,所以数据分析可提前面向数据,而不是面向客户主观需求进行计算,是有理论基础的。

如果你非要拿个计算器说这就是计算机,那么我不和你争,但计算机就是计算机,计算器就是计算器,以后不同设计思想的系统出来,自然能分别。

如果现在还整天对数据挖掘动不动谈各种分类聚类的,我只能说,你应该多和数据方面的专家多交流,而且思考一些新的数据问题,并从数据问题中获取理论、概念、证明的阐述和对应解决的设计思想构建。

另外补充一点,上面这些理论并没有出现在教科书里,我说了,各位小朋友不信我没办法,随便你们怎么扯,无非数据治理的重要性,你们还没有遇到过。记得一个例子,南京的一个政府部门,说手工整理数据(通过sql语言根据目标逐步调整数据库),各个表的项估计200到300个。手工搞搞无所谓。但是省里的专家,手上的任务就是几千个项,没有一套现成理论和工具可以帮他们解决问题。而对上百个表,几千个项,做表关联的分析,肉眼慢慢看吧,正常人,几秒内会放弃,诸如sql语言折腾他们的打算。

另外奉劝这里做数据库产品或系统的小朋友不用和我抬杠,如果认为你很牛b,你可以直接找你老板,告诉他,基于sql的数据分析(不是行记录的分析是项的分析)(先不谈数据挖掘吧)你能搞的定。你们公司可以直接去接单子了。

最后补充一句,别说我装大爷,前段时间向很多老教授,老院士,学习了很多东西,我也在虚心学习。希望你们重视理论和设计思想,别动不动就是oracLe,oralce ,ibm他们的技术人员很清楚他们能做什么不能做什么。这里发发彪是希望不知天高地厚的小朋友,虚心学习,如同我也对前辈和同辈虚心学习一样,但对你们,该打屁股打屁股,毕竟中国的技术力量,我们如果退下来,则需要你们。你可以骑在我脖子上拉屎撒尿,没关系,只要天天向上就好。


@张子游 ,我让你看看sql,最好你能知道,什么sql能干,什么sql干不了。

@liangtee 忘了告诉你了。我用c,基本都是和数据算法打交道。做算法是我的老本行。用c做算法和系统优化,无非底层折腾的更多,但例如驱动方面,我就不如我朋友宋宝华经验足。希望你的批判精神能用在传统方案无法解决问题时对传统方案的批判上,不知道你是否理解我的意思,而不要太迷信ibm和oracle,他们是很不错,还不是一般的不错,但是他们有不能解决的问题,这些问题域的解决方案是我们可以缩小和他们差距的机会,整天跟着他们的系统后面,除了吃屁,就是吃屎,屁能提神,但屎不管饱。。。

加载中
0
liangtee
liangtee

http://www.oschina.net/question/257445_120165 原帖地址,野鬼老湿专门为此贴做此文,我还被@了,我真荣幸啊 

大体浏览了一下您这篇"大作",通篇说要讲讲数据挖掘、数据分析,但吆喝了半天,貌似真正专业的东西一点没有,就提到点有关关联项分析的东西,还没说出具体的所以然来,当然这是您一惯的风格:说来说去都是为了表现您自己是it老江湖,吃的盐比我们吃的米还多,仅此而已。 

诚然,您是前辈,在您自己那一块表现得很像一个砖家(这里我没法打假,因为我不是做这个的),但是对您不懂的领域,我建议您有兴趣就看看,没兴趣就算了,但是千万别再拿"经验主义"的东西来瞎指导别人了,在明眼人看来那完全是秀下线的行为,只会导致您晚节不保! 最后针对你说的"做算法是你的老本行",我想说算法的分类多了去了,图形图像、数据挖掘、信号处理、负载均衡、IR、NLP等等几十几百种,你都懂吗?都做过吗?您那句话就好像您已经站在算法之颠好久高处不胜寒似的,而我想说:知之为知之,不知为不知,是知也!

中山野鬼
中山野鬼
回复 @解念念 : 靠。。。又被理论了。。。
解凌云
解凌云
野鬼是弄理论的,我觉得挺好。有太多的高手在自己的博客上写他们的专业的研究成果,贴出他们写的源码。但是最本质的东西很少提,也造成了很多读者不能理解其所以然来,这个是我看到很多人写博客所缺陷的地方。
0
中山野鬼
中山野鬼

引用来自“liangtee”的答案

http://www.oschina.net/question/257445_120165 原帖地址,野鬼老湿专门为此贴做此文,我还被@了,我真荣幸啊 

大体浏览了一下您这篇"大作",通篇说要讲讲数据挖掘、数据分析,但吆喝了半天,貌似真正专业的东西一点没有,就提到点有关关联项分析的东西,还没说出具体的所以然来,当然这是您一惯的风格:说来说去都是为了表现您自己是it老江湖,吃的盐比我们吃的米还多,仅此而已。 

诚然,您是前辈,在您自己那一块表现得很像一个砖家(这里我没法打假,因为我不是做这个的),但是对您不懂的领域,我建议您有兴趣就看看,没兴趣就算了,但是千万别再拿"经验主义"的东西来瞎指导别人了,在明眼人看来那完全是秀下线的行为,只会导致您晚节不保! 最后针对你说的"做算法是你的老本行",我想说算法的分类多了去了,图形图像、数据挖掘、信号处理、负载均衡、IR、NLP等等几十几百种,你都懂吗?都做过吗?您那句话就好像您已经站在算法之颠好久高处不胜寒似的,而我想说:知之为知之,不知为不知,是知也!

我估计你会这样说。哈。没关系你继续保持状态。不过“真正专业的东西一点没有” ,不妨说说什么叫专业。其他对口水喷的就没价值了。

说说算法,如果从系统上来看,选择什么算法更关键,而这些算法的选择不是你说的那些几百种的选取。从算法的实践上来说,等真的开始做算法的时候,只有当你忘记原有算法,基本才入状态。

搞算法优化,我昨天还在一个帖子里说,三个方面,1、理论算法,2、机器特性,3、大样本数据特性。

缺了后面两样,就是纯理论派,在工程上就是shit。因为真到优化阶段,机器特性和样本特征是重要的工作,这会调整算法的实现方式,甚至变形。

至于你说我不懂,只是秀下线,哈,你说什么就什么咯。这个我打小就不争。我不懂自然会去学,我懂的,自然不怕别人说我不懂。哈。

另外,别被名词给忽悠了,如同凯源社区里那么多的开源软件,特别是老外,和广泛的论文。真的有价值,值得研究的算法,都不是从算法实现来谈的,都是从数学角度来谈的,包括你说的上面算法,还有一堆无聊的神经网络,貌似这几年不热了。你所谓的懂,估计就是立刻能帮你fix掉你现在问题的,那就是懂。这得看什么问题。实际工程中,你做了半拉子出得问题,那只有自己擦,或者别人推倒重来,如果不是工程上的,是理论上的,哈,貌似又回到算法中抽象的数学上。

这些就又是经验主义。因为你说的算法中多数我做过,而且不是写论文,是实际在工程中开发优化过。就是因为吃过亏,所以知道工作需要理论指导,理论又需要下放到实际工作中去。工程很简单,每个人和你扯名次,能搞就搞,不能搞就是搞不了。能不能搞只有务实的用好的思想和方法去尝试。而不是拿一堆名词去唬人。

记得以前和导师说,我想清楚怎么搞了,导师问怎么搞,我说两字,算法。导师笑笑不说话,等我真坐下来,发现,确实,单纯的“算法”是个shit。

说这么多,就是想告诉你,别空拿一堆算法名词出来唬人,要么从设计思想上讨论,要么从实际工程中讨论。特别是后者,往往算法本身已经不重要了。

0
kiwivip
kiwivip
我想知道你文中的老院士是哪一位~
西昆仑
西昆仑
可以看他以前的博客,里面有提及过。
返回顶部
顶部