【开源访谈】Kyligence 技术合伙人李栋:商业产品与开源之我见

达尔文 发布于 2017/03/12 16:17
阅读 1K+
收藏 3

Apache Kylin 是一个开源的大数据 OLAP 分析引擎,是国内首个由中国团队贡献到 Apache 基金会的顶级开源项目。现在的Apache Kylin羽翼更丰,正逐渐从一个传统OLAP转变为一个实时数据仓库,目前在全球已150余家用户。同时兼顾开源和商业,其中有什么不同的感受?两者会不会出现矛盾和冲突?开发团队面临最大的挑战又是什么呢?本期,【开源访谈】邀请到了 Kyligence技术合伙人兼高级软件架构师李栋带来关于开源与商业之间的一些见解。

【本期嘉宾】

李栋,Kyligence技术合伙人兼高级软件架构师,Apache Kylin Committer & PMC Member,专注于大数据技术研发,KyBot技术负责人。毕业于上海交通大学计算机系;曾任eBay全球分析基础架构部高级工程师、微软云计算和企业产品部软件开发工程师;曾是微软商业产品Dynamics亚太团队核心成员,参与开发了新一代基于云端的ERP解决方案。

【访谈实录】

1、首先简单介绍一下自己(学习经历、工作经历、擅长领域等)

我叫李栋,目前就职于Kyligence公司,担任技术合伙人兼高级软件架构师,参与企业级产品研发,是KyBot技术负责人。我毕业于上海交通大学计算机系,毕业之后加入微软,从事商业软件的开发;之后加入eBay全球分析基础架构部,从事Kylin相关的开发工作。三个月之后成为 Apache Kylin 的Committer,后续又成为 PMC Member,其间多次主导Apache Kylin的release工作。在2016年,作为Kylin核心团队成员共同创办了 Kyligence。

2、您同时在做商业产品和开源项目,能否分享一些其中的不同感受?

做开源项目的时候,我们与整个社区是一个协同的关系,大家一起做同一个项目,用相互交流讨论的方式将项目做好。在用户遇到问题时,我们以志愿的形式为他们提供帮助,没有报酬和SLA。而做商业产品时,服务的是付费客户,需要我们提供带有SLA保障的技术支持服务,更加积极地做好售后服务工作;产品研发时,我们也会更多地站在客户角度思考问题,不断挖掘和满足客户的需求,优化用户体验。

3、这两者会不会出现矛盾和冲突?

我并不这么认为,因为商业产品是以开源为核心的,做好开源产品,有利于促进商业产品的发展,对于开源产品的支持也是在为商业支持积累经验;同时,商业产品的发展也能为开源带来需求和改进。两者是相互依存并相互促进的。

4、国内开源商业模式其实并没有很成功的案例,当初为什么会选择加入Kyligence创业?

其实国内也有很多比较成功的案例,比如开源中国。我认为开源商业发展很快,扩展面很广,是一个国际化的生态。全球范围内就存在很多开源商业模式的成功案例,比如Redhat、Cloudera, DataBricks等。Apache Kylin是首个由中国团队贡献的Apache顶级项目,而且在全球范围内有很大的用户群体,社区也相当活跃,工作起来很有成就感,这都是我们一步一步坚持走下去的信心。

5、你如何评价大数据在过去几年的发展?

我想从两个方面谈这个问题。第一,随着物联网和互联网的发展,数据呈现了爆炸式的增长。如今,许多公司希望基于海量的数据实现数据变现,大公司都在使用Hadoop,而大数据产业每年在以23%的趋势增长,从这些方面都可以看出大数据的需求很旺盛,增长很快。

第二,以Hadoop,Spark,Storm为主的并行计算框架都取得了蓬勃发展,生态圈也在不断壮大,在一定程度上解决了许多大数据的问题。技术与需求齐头并进,是良性发展的好势头。同时,许多开源社区和商业公司(如Kyligence)都致力于推动这个产业的发展,相信大数据一定会有更大的发展。

6、你认为未来大数据的发展趋势如何?

大数据包含的范围很广,最底层是分析平台的框架,会有许多其他技术结合进来,比如人工智能和深度学习,以解决传统技术难以解决的实际问题,比如给大家的衣食住行提供更加智能化、个性化的服务。另外就像我上一个问题提及的情况,我认为大数据发展前景很大。

7、从OLAP到实时数据仓库, Kylin遇到的最大问题是什么?怎么保证这其中的数据处理效率和稳定性?

遇到的一个实际问题是,数据仓库中的模型会比较复杂,而老版本的Kylin只支持星型模型结构,虽然可以使用hive view的方法满足OLAP分析需求,但无法保证和数据仓库的模型一致。所以我们从2.0开始能够支持复杂的雪花模型,数据模型就可以直接从数仓照搬到Kylin中,大大降低了使用门槛。

此外,我们有持续的测试流程保障数据处理效率和稳定性。同时,这也是开源社区的一个好处,每一个用户遇到问题都会及时反馈,然后整个社区一起讨论和不断演进。

8、除了用户提出的需求外,Kylin还会如何来引入和增加一些新功能?

因为我们是一个开源的社区,大家会在一起就某一问题进行讨论,在这个过程中就会有许多不同的需求或者idea迸发出来,最后会形成feature。另外,我们也会实时关注一些新技术,看是否能将它们引用进来。对于传统的技术,我们也会吸收借鉴,比如,Kylin的核心概念cube就是从传统OLAP分析中学习的。

9、Kylin的发展步伐非常快,再加上Kyligence的业务需求,这对技术团队带来了怎样的挑战?

第一,随着技术发展的加快,需求也在不断地增长。当业务不断变大时,在技术层面等各个领域都会遇到挑战。我们也会与一些在某些领域比较专业的公司和个人探讨,互相学习,例如我们最近刚与Alluxio成为战略合作伙伴,为企业客户带来更快的数据访问及查询性能。

第二,在用户反馈和产品转化上遇到的挑战。我们会不断收到客户对于产品的反馈,他们的需求多种多样,我们需要从这些反馈中挖掘出问题产生的根本原因,并不断提炼和梳理出产品改进的方案,不断对产品进行优化,满足客户的需求。

10、能透露一些 Kylin 和 Kyligence 下一步的发展举措吗?

Kylin 会继续优化实时数据的构建,同时会在性能方面进行提升,如查询性能和并发度等。Kyligence 会继续以Apache Kylin为核心,不断优化企业级产品,提供更具管理性、安全性以及兼容性的企业级数据分析平台。除此之外 最新推出的自动化诊断、优化在线服务KyBot就是一种模式创新:用户通过Agent等方式自动将Kylin的相关日志上传到KyBot服务,而在云端通过知识库及数据挖掘等技术为用户提供快速的、自动化的分析和诊断,指导用户就行相关系统的优化和性能调优,为用户提供及时有效的支持。

加载中
返回顶部
顶部