Apache Griffin 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Griffin 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Griffin 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !

软件简介

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。  

Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。

系统架构:

核心优势:

主要功能:

企业应用:

Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约1.2PB。

团队成员:

Apache Griffin现在的团队成员全部来自eBay中国卓越技术中心,这又是一个由国人自主研发并贡献出来的开源项目。目前正在将Apache Griffin项目迁移到Apache社区,我们非常欢迎热心于开源软件的程序猿们,数据猿们参与进来,一起推动Apache Griffin更快更好的发展,回馈给全球软件开发者们。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (11)

加载中
你好,我启动job以后运行官方案例, success后并没有出现图像,这是为什么呢,大神,求解,livy最后几天日志 2021-11-28 23:11:03 WARN HiveConf:2753 - HiveConf of name hive.metastore.event.db.notification.api.auth does not exist 2021-11-28 23:11:08 WARN DataSource:36 - load data source [source] fails 2021-11-28 23:11:08 WARN DataSource:36 - load data source [target] fails data source timeRanges: source -> (0, 0], target -> (0, 0] 2021-11-28 23:11:09 WARN AccuracyExpr2DQSteps:36 - [1638108624078] data source source not exists
11/29 00:41
回复
举报
关键是UI 编译时报错啊,无法使用
2020/07/14 13:29
回复
举报
有具体介绍方案?
2020/03/12 23:02
回复
举报

引用来自“客气了_叫我码农就好”的评论

亲,404了
我也404了
2019/06/15 09:54
回复
举报
mark
2018/09/28 08:30
回复
举报
亲,404了
2018/06/12 11:13
回复
举报
什么时候可以支持spark2.0.x
2017/06/05 10:47
回复
举报
打分: 较差
部署后,用户名和密码找不到?
2017/03/02 17:01
回复
举报
打分: 力荐
该评论暂时无法显示,详情咨询 QQ 群:912889742
打分: 推荐
不错呀!支持!
2016/12/22 13:13
回复
举报
更多评论
2018/12/14 08:07

Apache 基金会正式宣布 Griffin 毕业成为顶级项目

Apache 软件基金会12月12日正式宣布 Apache Griffin 毕业成为 Apache 顶级项目。 Apache Griffin 是一个强大的开源大数据质量解决方案,适用于任意规模的分布式数据系统。它提供了一个统一的流程,可以从不同的角度来定义和检测数据集的质量,以及在流式传输或批处理上下文中构建和验证可信数据资产。 Griffin 起源于 eBay 中国,并于2016年12月进入 Apache 孵化器。 Apache Griffin VP William Guo 表示:“我们为 Griffin 到达...

5
26
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2020/02/11 17:33

Apache Griffin安装

介绍 1.原理: 从hive metadata中加载数据源 根据用户指定的数据质量检查的规则,将规则转换为Spark程序,利用Spark这种强大的计算能力,为数据质量做出检测分析。 2.程序设计模块 measure: 计算层,使用spark计算用户制定的数据质量校验规则,由scala开发。 service: 服务层,对接ui的后端接口,定时调度、向livy提交spark程序的角色。 ui: 展现层,由angular2开发 安装 一、集群基础环境 1.JDK (1.8 or later versions) 2....

0
0
2019/01/18 15:55

Apache Griffin 入门指南

数据质量模块是大数据平台中必不可少的一个功能组件,[Apache Griffin](http://griffin.apache.org)(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资产,从而提升数据的准确度、可信度。 在Griffin的架构中,主要分为Define、Measure和Analyze三个部分,如下图...

2
1
发表于AI & 大数据专区
2019/01/07 23:25

数据质量监控工具-Apache Griffin

[TOC] ## 一、概述 随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。 目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在不...

2
6
发表了博客
2016/09/14 14:09

Griffin – 模型驱动的数据质量服务平台

作者:Lv, Alex 1概述 在eBay,当人们在处理大数据(Hadoop或者其它streaming系统)的时候,数据质量的检测是一个挑战。不同的团队开发了他们自己的工具在其专业领域检测和分析数据质量问题。于是我们希望能建立一个普遍适用的平台,提供共享基础设施和通用的特性来解决常见的数据质量问题,以此得到可信度高的数据。 目前来说,当数据量达到一定程度并且有跨越多个平台时(streaming数据和batch数据),数据数量验证将是十分费时...

0
0
2020/08/28 09:48

「网易官方」极客战记(codecombat)攻略-山峰-收割火焰-reaping-fire

(点击图片进入关卡) 用自己的手捍卫自己的雷区... 与格里芬一起! 简介 食人魔正在前进! 指挥飞行员 "griffin-riders" 飞越地雷并捍卫英雄。 使用一系列功能将流程的每个部分分解成易于理解的部分。 默认代码 # 目标是生存30秒,并且保持地雷完好至少30秒。 def chooseStrategy(): enemies = hero.findEnemies() # 如果你可以召唤一个格里芬骑士,返回 "griffin-rider" # 如果您的矿井旁边有一辆排山车,请返回"fight-back" # ...

0
0
01/13 12:25

用AI「驯服」人类幼崽:这个奶爸找到了硬核带娃的乐趣

选自medium 作者:Agustinus Nalwan 机器之心编译 编辑:泽南、魔王、张倩 为了能安心看几集 Netflix 剧,技术宅奶爸都做了些什么…… 长期以来,「奶爸」+「萌娃」一直是一个不被看好的组合,甚至有人说,「父爱如山体滑坡」。不信的话,以下都是证据: 众所周知,人类幼崽似乎是台永动机,在一天 24 小时任何时间段里都有可能向你发难。你能让自己睡个安稳觉的方法看来是在白天消耗他们的精力,因此人们想出了各种各样的方法。...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于AI & 大数据专区
2019/02/15 10:08

Apache Griffin在es里没有统计数据

@leslytt 你好,想跟你请教个问题: 我本地搭建了Apache Griffin,但是 1、HDFS的/griffin/persist目录下没有统计结果文件 2、ES中的metric数据为空,measure和service里的es配置均正确 以至于我在页面中看不到任何的统计数据。

3
0
发表于AI & 大数据专区
2019/04/08 17:28

Apache Griffin这个开源项目还有人维护吗?什么时候更新到1.0版本 目前正式发行版还没有?

@九州暮云 你好,想跟你请教个问题:Apache Griffin这个开源项目还有人维护吗?什么时候更新到1.0版本 目前正式发行版还没有?

1
0
2019/02/21 15:15

Apache Griffin问题

@九州暮云 你好,想跟你请教个问题: 您好,我安装Apache Griffin后,UI页面没有结果显示,错误为: 不知道什么原因,请大神帮忙看一下!

1
0
发表了问答
2017/05/17 08:02

【开源访谈】eBay 刘力力:Griffin 在 Apache 孵化背后的那些事

Griffin 是一个应用于分布式数据系统中的开源数据质量解决方案,在 Hadoop、Spark、Storm 等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题,于2016年12月提交给 Apache 软件基金会进行孵化。项目主要是为了解决哪些痛点?又遇到了哪些困难?为什么会选择提交给 Apache 孵化?本期,【开源访谈】邀请到了 Griffin 项目的主要 committer 刘力力,和大家聊聊 Griffin 背后的那些事。 【本期嘉宾】 ...

1
3
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
11 评论
134 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部