1
回答
【开源访谈】eBay 刘力力:Griffin 在 Apache 孵化背后的那些事
终于搞明白,存储TCO原来是这样算的>>>   

Griffin 是一个应用于分布式数据系统中的开源数据质量解决方案,在 Hadoop、Spark、Storm 等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题,于2016年12月提交给 Apache 软件基金会进行孵化。项目主要是为了解决哪些痛点?又遇到了哪些困难?为什么会选择提交给 Apache 孵化?本期,【开源访谈】邀请到了 Griffin 项目的主要 committer 刘力力,和大家聊聊 Griffin 背后的那些事。

【本期嘉宾】

刘力力,eBay 高级软件工程师,Apache Griffin 项目的主要 committer ,目前在 eBay 大数据服务部门,专注于大数据平台上提供稳定及时有效的数据服务应用设计和开发。

【访谈实录】

1、先简单介绍一下自己

 我叫刘力力,来自 eBay ,一名软件工程师。5年前毕业,开始从事软件开发工作,跟很多同行一样,一直保持着对技术的热情,也因为这种比较纯粹的兴趣,从国企来到 eBay 。感兴趣的技术主要是大数据相关的,spark、kafka 等。

2、做 Griffin 这样一个数据质量解决方案的初衷是什么?是想解决什么痛点?

 在 eBay ,面临大数据和流式计算的企业环境,数据质量问题是一个很大的挑战,我们想要一个开源的解决方案,通过提供一个数据质量平台来处理常见的普遍的痛点,这个开源的平台应该是可扩展的,可插拔的,容易被业界认可并愿意一起来协作解决这个问题,只有建立可以信赖的数据,才能充分发挥利用数据的价值。因此,Griffin 应运而生。

3、为什么会将项目取名为 Griffin (格里芬,狮身鹫首的怪兽),背后有什么含义吗?

 没错,Griffin 是一种狮身鹫首的怪兽,又叫狮鹫,非常威武雄壮。我们的 Apache Griffin 就像是守护数据的卫士,有了它的保护,数据的质量也会更有保障,更可信赖。

4、Griffin 目前处于什么状态?在 eBay 内部使用情况如何?

 Apache Griffin 目前是 Apache 的 incubator 项目,还处在孵化阶段,已经实现了对离线数据的一致性校验功能支持。我们在设计时也非常注重易用性,所以会是一个非常好用的解决方案。

 目前在 eBay 内部已经部署了 Griffin ,监控着大约1.2PB的数据,每天计算超过8亿用户数据,生成100多个监控指标,同时也部署了不少实时数据的监控。

5、为什么会选择将项目提交给 Apache 进行孵化?

 Apache 是一个非常权威成熟的开源社区,有很多大数据的开源项目也来自于 Apache ,类似于 Spark、HIve、Kafka 等等,Griffin 也是大数据生态下的产品,所以我们选择把项目提交到 Apache 进行孵化,这也是 Griffin 的荣幸。

6、开发 Griffin 的过程中有遇到哪些困难与挑战吗?

 在设计开发的过程中,我们也遇到了一些技术上的挑战,比如如何利用统一的计算模型来支持实时数据和离线数据,怎样能够让度量算法可扩展,可插拔等。这些问题都具有一定难度和挑战性,我们也正在努力解决他们,也非常欢迎大家能够一起帮助 Griffin 成长。

7、Griffin 的开发团队是怎么组成的?能说说具体分工吗?

 Griffin 从最初发起到现在已经有十几个 committor ,由于 Griffin 是一个开源项目,大部分人都是利用自己的业余时间在为 Griffin 作贡献。Griffin 主要分为 service 模块、measure 模块和 ui 模块,每个模块都有主要的负责人,大家会定期讨论 Griffin 的设计方案,也会经常交流遇到的问题和设计上的想法,也给 Griffin 带来了更多的灵感。

8、Griffin 后续的技术发展方向是怎样的?

 Griffin 的定位是大数据质量解决方案,最重要的目标就是能够覆盖绝大部分的大数据质量问题,成为可以信赖的数据质量监控平台。后续我们会覆盖更多的数据质量度量种类和方法,支持更多数据源种类,甚至是混合数据源。以后的发展方向就取决于社区了。 

9、能否分别谈谈您对国内和国外开源技术和社区的看法?

 最近几年国内开源技术在蓬勃发展,社区也相应正在发展壮大,随着国内互联网特别是电商的应用发展,很多开源项目在这个时代的沃土上茁壮成长起来了,如 eagle、kylin 等等。国外开源社区毕竟更成熟一些,也有很多资深的 mentor 在引领开源技术,文化语言也是一个方面,希望我们中国人更开放,多表达,做出更好的产品!我们也能做出一款让大家受益的质量解决方案!

举报
王练
发帖于4个月前 1回/1K+阅
顶部