Big Data Sampling Under Chi-square 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Big Data Sampling Under Chi-square 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Big Data Sampling Under Chi-square 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Big Data Sampling Under Chi-square 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Big Data Sampling Under Chi-square 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 GPL
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据处理
开源组织
地区 国产
投 递 者 osc_17199905
适用人群 未知
收录时间 2021-09-13

软件简介

基于卡方检验的大数据抽样工具

介绍

抽样是数据科学中的基本方法之一。它可以降低数据规模并简化计算。本工具包给出一种保持分布不变性的抽样工具,使得即使在小样本数据量下也不会影响这些数据分析模型的准确性。本工具包基于皮尔逊检验的保持分布不变的启发式抽样压缩算法。该算法基于两个评分函数进行抽样,其中一个评分函数基于皮尔逊检验,另一个评分函数基于似然函数。

使用方法

大数据抽样压缩工具含两个版本:Matlab版和Python版。

两个版本的功能一致,但Matlab版的运行速度比Python版快。

Matlab版依赖于Matlab v9.7(2019b)运行时环境。若已经安装了Matlab 2019b,则可以在Matlab命令行窗口输入mrcinstaller直接安装。另外,可以从[网址](https://www.mathworks.com/products/compiler/mcr/index.html)中下载Matlab2019b对应的运行环境。

Python版直接运行源码网址下的文件

hsa_python_with_ui/hsa_python_with_ui/hsa_python_with_ui.py

 Matlab版直接运行源码网址下的文件

hsa_matlab_with_ui/hsa_matlab_with_ui/hsa_matlab_with_ui.py

更详细的内容请参考项目中的用户说明书。

界面

Python版本的主界面如下

Matlab版本的主界面如下

参考文献

[1] Yang J, Wang J, Cheng W, et al. Sampling to Maintain Approximate Probability Distribution Under Chi-Square Test[C]//National Conference of Theoretical Computer Science. Springer, Singapore, 2019: 29-45.

[2] Yang J Y, Wang J D, Zhang Y F, et al. A Heuristic Sampling Method for Maintaining the Probability Distribution[J]. Journal of Computer Science and Technology, 2021, 36(4): 896-909.

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2016/06/13 13:26

what is big data?

link: http://opensource.com/resources/big-data Big data: everyone seems to be talking about it, but what is big data really? How is it changing the way researchers at companies, non-profits, governments, institutions, and other organizations are learning about the world around them? Where is this data coming from, how is it being processed, and how are the results being used? And why is open so...

0
0
发表于云计算专区
2014/10/12 19:10

Big Data

Blog1(http://blog.sina.com.cn/s/blog_631d3a630101nb77.html) 大数据(Big Data) 大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为 数据量大(Volume), 数据类别复杂(Variety), 数据处理速度快(Velocity)和 数据真实性高(Veracity),合起来被称为4V。 大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅...

1
14
2020/09/22 20:09

Big data in a nutshell

Data is growing rapidly in every sector. Big data, cloud computing, the Internet of Things, and data science are the chief trending technologies that are deriving innovation and transformation throughout the world. Though all these technologies differ from each other in several aspects, it’s hard to talk about one without the other. Big data and data science are closely entwined in such a way ...

0
0
发表于数据库专区
2015/04/28 10:19

Big data defined

Big data is a popular term used to describe the exponential growth and availability of data, both structured and unstructured. And big data may be as important to business – and society – as the Internet has become. Why? More data may lead to more accurate analyses. More accurate analyses may lead to more confident decision making. And better decisions can mean greater operational efficienci...

0
0
发表了博客
2016/09/22 18:13

Chi-squared tests

1: Observed And Expected Frequencies In this mission, we'll be learning about the chi-squared test for categorical data. This test enables us to determine the statistical significance of observing a set of categorical values. We'll be working with data on US income and demographics throughout this mission. Here are the first few rows of the data, in csv format:   age,workclass,fnlwgt,education...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
2 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部