@gvim ,倒是讨论点有价值的问题,哈。

中山野鬼 发布于 2013/09/13 00:10
阅读 1K+
收藏 1

喷语言,喷并发,喷泛型,都是老原理,喷来喷去就一个感觉,无聊。

说下数据关联,也和nosql数据有关。结构化数据(不是关系型数据),有个特点,假设定义每个列为一个属性,那么这一列的所有数据,对于结构化数据处理而言,和其他属性的关联方式是统一的。

我们假设存在A,B,C三个属性,针对这3个属性,存在3条记录的集合。抽象一点,就是3条记录吧。

第一条是A,B之间有关联,第二条是B,C之间有关联,第三条是A,C之间有关联。

关于这类问题,对于nosql的数据存储(包括关联索引)的组织,你有什么想法?这个问题实际等同于,对一个上述关联特性的数据的查找算法的描述。

至于其他网友问我,这种情况怎么能出现,为什么入库时不把他们分清除,我就不重复回答了。免责的说一句“这是现实问题,不以要求为转移”,再带一个举例“两套数据系统里的数据,分别拿出来,本来的问题就是要找到他们之间的相关性的数据,进行关联,而不是把这个问题回避成,让他们自己把数据组织好,他们能组织好,我上面的问题就自然解决了”。哈。

加载中
0
gvim
gvim
別折腾了兄弟,这问题在你的知识领域,或者包括你说的搞数据库的专家,这问题不是数据怎么存,也不是RDBMS或NOSQL的问题.这是统计推断的问题域,如果在大学,去应用数学系找个搞统计的给你搞吧.前面有人说无监督学习,我只能说不考虑背景支撑的名词都知道怎么说
0
宏哥
宏哥

看到Nosql

就想说:

CAO

0
中山野鬼
中山野鬼

引用来自“gvim”的答案

別折腾了兄弟,这问题在你的知识领域,或者包括你说的搞数据库的专家,这问题不是数据怎么存,也不是RDBMS或NOSQL的问题.这是统计推断的问题域,如果在大学,去应用数学系找个搞统计的给你搞吧.前面有人说无监督学习,我只能说不考虑背景支撑的名词都知道怎么说
哈。问问你的想法而已。无非我自己在处理这方面问题。没关系。各忙各的。不过从目前来看,怎么存,我是说逻辑上的数据组织方式,直接决定方案是否可行。所谓怎么存,类似第一范式和第三范式的约束区别,当然具体化的方法是少不了的。
0
gvim
gvim

引用来自“中山野鬼”的答案

引用来自“gvim”的答案

別折腾了兄弟,这问题在你的知识领域,或者包括你说的搞数据库的专家,这问题不是数据怎么存,也不是RDBMS或NOSQL的问题.这是统计推断的问题域,如果在大学,去应用数学系找个搞统计的给你搞吧.前面有人说无监督学习,我只能说不考虑背景支撑的名词都知道怎么说
哈。问问你的想法而已。无非我自己在处理这方面问题。没关系。各忙各的。不过从目前来看,怎么存,我是说逻辑上的数据组织方式,直接决定方案是否可行。所谓怎么存,类似第一范式和第三范式的约束区别,当然具体化的方法是少不了的。

个人看这个问题,现在还不到怎么存的地步,怎么存是方便处理,范式只是规范冗余。问题的关键点你自己已经很清楚了,“对一个上述关联特性的数据的查找算法的描述”。而这个算法是统计推断描述的东西,包括什么是相关哪些相关,相关度是多少(因此我估计你想放到神经网络里面做权值),这种相关可不可信,如何验证等东西,如果分布不是已知的或者熟知的,还得自己推导分布函数,如果这些东西都找不出来,或者说定不出权值,那么所有的属性即便你觉得是有关联的,对你要鉴别的东西来说只是白噪声。这些内容用普通的二维表来描述数据都是可以的。所以我说这玩意不是搞计算机的人或者说没有统计分析背景的人能搞的。可以用 python 或者 R 先做一个算法原型,正确了再考虑下面的数据怎么组织来提高算法的效率等。

分清处理域,这就是我的看法。

0
紫电清霜
紫电清霜
一看标题我就猜到是野鬼 
首席安全砖家
首席安全砖家
+1024
0
中山野鬼
中山野鬼

引用来自“gvim”的答案

引用来自“中山野鬼”的答案

引用来自“gvim”的答案

別折腾了兄弟,这问题在你的知识领域,或者包括你说的搞数据库的专家,这问题不是数据怎么存,也不是RDBMS或NOSQL的问题.这是统计推断的问题域,如果在大学,去应用数学系找个搞统计的给你搞吧.前面有人说无监督学习,我只能说不考虑背景支撑的名词都知道怎么说
哈。问问你的想法而已。无非我自己在处理这方面问题。没关系。各忙各的。不过从目前来看,怎么存,我是说逻辑上的数据组织方式,直接决定方案是否可行。所谓怎么存,类似第一范式和第三范式的约束区别,当然具体化的方法是少不了的。

个人看这个问题,现在还不到怎么存的地步,怎么存是方便处理,范式只是规范冗余。问题的关键点你自己已经很清楚了,“对一个上述关联特性的数据的查找算法的描述”。而这个算法是统计推断描述的东西,包括什么是相关哪些相关,相关度是多少(因此我估计你想放到神经网络里面做权值),这种相关可不可信,如何验证等东西,如果分布不是已知的或者熟知的,还得自己推导分布函数,如果这些东西都找不出来,或者说定不出权值,那么所有的属性即便你觉得是有关联的,对你要鉴别的东西来说只是白噪声。这些内容用普通的二维表来描述数据都是可以的。所以我说这玩意不是搞计算机的人或者说没有统计分析背景的人能搞的。可以用 python 或者 R 先做一个算法原型,正确了再考虑下面的数据怎么组织来提高算法的效率等。

分清处理域,这就是我的看法。

放到神经网络里面做权值” ,这个最终肯定是个神经网络样子的东西。不过神经网络的理论,我还没有看到对里面节点的分析。这块只能说象。我也不知道后期是否能把两套东西合并一起分析。

至于你说的原型设计,实话,算法出来了。什么工具快用什么。哈。

不过,你说的统计问题。第一,这个里面一定有“置信度”的问题。不过“统计”之前,还存在对精确关联的理论分析。如果这个理论分析里面都是一堆相互矛盾的东西,权重怎么折腾,都是“经验主义”,换套数据,就死菜了。

目前我的分析,主要集中在,把所有记录集合,每个属性看作一个维度。每个记录实际是n维空间的一个顶点。那么对这些记录集合的关联实际是对这些顶点分布中,不变性的描述。这些描述最终形成的基于基础结构的序化。简单举例如下:

假设存在两个二元关系(A,B) ,

{(0,1) (1,0)} 它和{(0,0),(1,1)} 的基础结构是一致的,实际后者,作为一种基础结构,当然不止它一个。但是他们的属性符号集合序化后是区别的。

第一种,A符号(属性)有序集合是{1,0} B符号(属性)有序集合是{0,1}。

第二种,本身就是基础结构,所以两个符号属性的存储 是{0,1} {0,1}。

当然我上面已经比较抽象了。假设实际记录是

{(王二,班长),(李四,组长)},符号抽象后,它只是{(0,0),(1,1)} ,当然需要另两个映射表存在。每个表是对每个属性的内容进行符号化。不过这和上面,针对基础结构的符号序化不是一回事。 

0
gvim
gvim

引用来自“中山野鬼”的答案

引用来自“gvim”的答案

引用来自“中山野鬼”的答案

引用来自“gvim”的答案

別折腾了兄弟,这问题在你的知识领域,或者包括你说的搞数据库的专家,这问题不是数据怎么存,也不是RDBMS或NOSQL的问题.这是统计推断的问题域,如果在大学,去应用数学系找个搞统计的给你搞吧.前面有人说无监督学习,我只能说不考虑背景支撑的名词都知道怎么说
哈。问问你的想法而已。无非我自己在处理这方面问题。没关系。各忙各的。不过从目前来看,怎么存,我是说逻辑上的数据组织方式,直接决定方案是否可行。所谓怎么存,类似第一范式和第三范式的约束区别,当然具体化的方法是少不了的。

个人看这个问题,现在还不到怎么存的地步,怎么存是方便处理,范式只是规范冗余。问题的关键点你自己已经很清楚了,“对一个上述关联特性的数据的查找算法的描述”。而这个算法是统计推断描述的东西,包括什么是相关哪些相关,相关度是多少(因此我估计你想放到神经网络里面做权值),这种相关可不可信,如何验证等东西,如果分布不是已知的或者熟知的,还得自己推导分布函数,如果这些东西都找不出来,或者说定不出权值,那么所有的属性即便你觉得是有关联的,对你要鉴别的东西来说只是白噪声。这些内容用普通的二维表来描述数据都是可以的。所以我说这玩意不是搞计算机的人或者说没有统计分析背景的人能搞的。可以用 python 或者 R 先做一个算法原型,正确了再考虑下面的数据怎么组织来提高算法的效率等。

分清处理域,这就是我的看法。

放到神经网络里面做权值” ,这个最终肯定是个神经网络样子的东西。不过神经网络的理论,我还没有看到对里面节点的分析。这块只能说象。我也不知道后期是否能把两套东西合并一起分析。

至于你说的原型设计,实话,算法出来了。什么工具快用什么。哈。

不过,你说的统计问题。第一,这个里面一定有“置信度”的问题。不过“统计”之前,还存在对精确关联的理论分析。如果这个理论分析里面都是一堆相互矛盾的东西,权重怎么折腾,都是“经验主义”,换套数据,就死菜了。

目前我的分析,主要集中在,把所有记录集合,每个属性看作一个维度。每个记录实际是n维空间的一个顶点。那么对这些记录集合的关联实际是对这些顶点分布中,不变性的描述。这些描述最终形成的基于基础结构的序化。简单举例如下:

假设存在两个二元关系(A,B) ,

{(0,1) (1,0)} 它和{(0,0),(1,1)} 的基础结构是一致的,实际后者,作为一种基础结构,当然不止它一个。但是他们的属性符号集合序化后是区别的。

第一种,A符号(属性)有序集合是{1,0} B符号(属性)有序集合是{0,1}。

第二种,本身就是基础结构,所以两个符号属性的存储 是{0,1} {0,1}。

当然我上面已经比较抽象了。假设实际记录是

{(王二,班长),(李四,组长)},符号抽象后,它只是{(0,0),(1,1)} ,当然需要另两个映射表存在。每个表是对每个属性的内容进行符号化。不过这和上面,针对基础结构的符号序化不是一回事。 

前面的帖子我基本了解你跟这个项目已经半年了,还有很多所谓的数据库专家,是吧。你发现 a,b,c 看起来好像都是有关系的,好像每一个属性都应该能找到一个算式通过其他属性来表示的线性表示,所以你想先找到某些“精确关联”,来构建你认为的线性相关,所以解决方案无非是确认因子矩阵,可是你研究半天才发现这套因子矩阵不能适用于全部数据集,套数据就挂了。这里的问题之一是,线性空间里基的元素是无法用其他元素表示的,因为他们组成了基,是线性无关,而根据你的例子 a,b,c说来,他们都是相关的,也就是说你找不到一个线性无关组来表示你的属性。模型的问题在于可能你非常擅长确定性分析,可是对你不擅长的领域的人看来,你的数据在构建之初就存在人为的随意行为和不确定行为,从一开始就已经引入了随机性,相关性也是概率相关而不是线性相关,分布出来了,权值自然就出来了,何来“经验主义”,哎。而把符号映射到实数是预处理的第一步,这根本不是核心问题,同数据怎么存储,怎么组织一样你却把它作为头等大事来抓。做分析是不用突出考虑数据怎么组织的,这是科学;编程序才考虑数据怎么组织更利于编程和可计算、计算效率等,这是工程。建模、分析方式的思维已经决定了你的结果。劝你一句别折腾了兄弟,这个领域和你做的音视频编解码不一样,我断定如果你的项目按照你目前的做法走下去,是失败的。

另外,你说到 N 维空间,你知道空间是什么东西吗?名字都好说,如果看着名字牛逼就拿来用,只怕这个问题对你来说就太抽象了。套用你昨天一句话:“不同语言,真的不同啊”。哈。习惯中文的,确实不习惯法语,除非两样都精通。

0
中山野鬼
中山野鬼

所以解决方案无非是确认因子矩阵,可是你研究半天才发现这套因子矩阵不能适用于全部数据集,套数据就挂了。这里的问题之一是,线性空间里基的元素是无法用其他元素表示的,因为他们组成了基,是线性无关,而根据你的例子 a,b,c说来,他们都是相关的,也就是说你找不到一个线性无关组来表示你的属性。模型的问题在于可能你非常擅长确定性分析,可是对你不擅长的领域的人看来,你的数据在构建之初就存在人为的随意行为和不确定行为,”

这部分的内容,可能表示你和我关注的问题和设计目标不太一样。如果“换套数据就挂了”,那么表示模型没有构造好。

从理论上说,有以下的哲理,你也可以当作假说:

数据是符号化的客观记录。

也就是说,不同信息化系统里的数据,部分的内容,是相同的,只要他们的信息符号规范化后。

所以,我们要解决的问题,实际上是

而根据你的例子 a,b,c说来,”

这种情况下,对于一个系统,a,b,c他们确实都是关联的,因为系统本身是结构化数据。但是,他们和另一个系统的,a,b,f并不是每个记录的每个属性都关联。

上面的假说是,存在一个客观,比如你的存在你在很多系统里填写的身份证,姓名,家庭住址,都是一样的,不过他们的生命周期不太一样。你的身份证基本是不变的。可能一生你改两次姓名,10年你换一次家庭住址。会以下几个问题:

1、每个系统不会包含你所有数据,例如你购买手机,不会填写血型。

2、每个系统里还包含对你的客观存在无关的数据。

3、每个系统里,对你的客观数据的描述,可能存在非标准方式,简单说,会有信息损失,或错误。

而我们要做的就是从不同的信息化系统中,通过比对,把你的真是全貌给体现出来,确认每个数据的可信度和关联内容。可能一个信息库的某些记录的某些属性中的值,和另一个信息库的某些记录的某些属性的值,的关联,才具备描绘你的全貌。当然他们之间也有冗余,这不是重点。

简单说,两套信息化系统要能互通,首先是他们要能有从数据上对应的基础。这个基础不是额外再做一套系统,对每个数据做定义。而是将从不同角度处理数据的信息化系统的结果,寻找他们客观本质的关联,这个关联性不是人为设置的。

或许,把数据判定属于对客观描述的符号化记录,针对很多“数据”不适用,这个我相信,不过能做数据互通的,目前先以“各种信息化系统的数据,含有针对客观记录的内容”这个假设为前提。 特别针对物联网方面,和一些高质量数据库,例如政府的,公安,医疗等,还是有价值的。

0
n
newlife867
鸡同鸭讲,老鬼对于人工智能领域完全没入门。
0
中山野鬼
中山野鬼

引用来自“newlife867”的答案

鸡同鸭讲,老鬼对于人工智能领域完全没入门。
哈,我发现经常有人说我不懂。从xx到yy,。权当我不懂。不过人工智能,从01年开始我就开始看相关理论和文献。你说不懂就不懂吧。不过貌似你也没懂我在说什么。当然可能我的例子没说清楚。而且非结构的数据关联和人工智能没有什么关系。算两件事情。至于人工智能,如果想讨论,可以另外开个帖子谈。不过我不想纠结于具体的算法模型谈,这个很无聊。因为哲理和数学上,很多事情都没分析清楚,所谓的算法模型就假大空了。那些一眼望穿的人工智能算法模型,就不步讨论了。
返回顶部
顶部