32
回答
高手问答第 145 期 — 开源的分布式分析引擎 Apache Kylin
终于搞明白,存储TCO原来是这样算的>>>   

OSCHINA 本期高手问答(2017 年 3 月 14 日 — 3 月 20 日)我们请来了@shaofengsh (史少锋)和大家探讨开源分布式分析引擎 Apache Kylin 的相关问题。

@shaofengsh  史少峰,Kyligence 技术合伙人兼资深架构师,Apache  Kylin 核心开发者和项目管理委员会成员(PMC),专注于大数据分析和云计算技术。曾任 eBay 全球分析基础架构部大数据高级工程师,IBM 云计算部门软件架构师;曾是 IBM 公有云 Bluemix DevOps团队核心成员,负责平台的规划、开发和运营。

Apache Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,它能在亚秒内查询巨大的 Hive 表,为超大规模数据集上的交互式大数据分析打开了大门。

高手嘉宾将与大家探讨 Apache Kylin 项目的相关概念和适用场景等,并对 Apache Kylin 的的整体架构、设计思路以及关键技术点等进行一定的讲解。

为了鼓励踊跃提问,@华章图书 会在问答结束后从提问者中抽取 5 名幸运会员赠予《Apache Kylin权威指南》一书。

本书由 Apache Kylin 核心开发团队编写,系统地介绍了 Apache Kylin 安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于 Apache Kylin 的权威指南。

购买链接:https://item.jd.com/12114572.html

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就开源分布式分析引擎 Apache Kylin 相关的问题向 @shaofengsh  提问,请直接回帖提问,提问的时候请描述清楚具体的场景,以方便回答。

举报
局长
发帖于5个月前 32回/3K+阅
共有32个答案 最后回答: 5个月前

@shaofengsh 对于 Kylin 预先做多维度索引?这个维度上面可以自定义吗?在数据量大的情况,索引也会相应的变大,这块希望能够提供点优化思路。谢谢!

--- 共有 1 条评论 ---
shaofengshKylin会先对维度值做编码(字典等编码方式),以减少存储大小,Cube建好后存入HBase;HBase会对索引(rowkey)再做压缩,所以通常Cube大小只有原始数据的30%-50%,用户无需担心 5个月前 回复

@shaofengsh Apache Kylin 的应用场景有哪些?

--- 共有 1 条评论 ---
shaofengshKylin是一个大数据快速查询引擎,它的典型场景是大量数据上的多维在线分析(MOLAP),因为有SQL接口,它可以跟很多分析工具集成使用,例如自助式探索分析,仪表盘,固定报表等;以往做这些事情需要用户做各种程序和脚本开发,如今Kylin将这些过程自动化,用户只需要简单操作就可以快速分析大数据了,效率比以前高了许多。 5个月前 回复

@shaofengsh学习Kylin应该从那些方面入手?这方面资料多?书中的应用实例多?

--- 共有 1 条评论 ---
shaofengsh首先你可以按kylin的官网的教程来开始入门,然后搜索社区分享的各种案例文章。由于使用Kylin不需要编程,它的使用与其它技术相比要容易很多,所以大家通常很快就上手了。更深入的了解可以阅读这本新书,还可以下载Kylin的源代码学习。 5个月前 回复

@shaofengsh Apache Kylin能够脱离Hbase架构吗??其实有些场景,对于HBase的依赖很少,为了使用Kylin而部署一套Hbase,增加额外的运维成本和复杂度。

Kylin常常拿来跟ES对比。。相比ES,Kylin的优势是什么?

--- 共有 2 条评论 ---
shaofengsh这两个技术各有优势;Kylin的优势是支持超大数据集(百亿、千亿甚至万亿)上的低延迟的查询,这是其它没有预计算的引擎难以达到的;此外,Kylin是Hadoop原生,不需要运营额外的集群;但缺点是需要预建模、预计算。 ES的优势有查询灵活,支持很多维度等,在数据量不是很大的时候是个不错的选择。 5个月前 回复
shaofengshKylin在v1.5里引入了可插拔架构,存储是其中一个可以插拔的模块,所以换掉HBase技术上是可行的。但目前开源Kylin只支持HBase存储。在Kylin的企业版(Kyligence Analytics Platform)里,推出了新的纯列存储引擎,替换HBase。详细情况可以访问http://kyligence.io/kap/ 5个月前 回复

@shaofengsh 能否说下 Apache Kylin 和 Druid 各自优势和区别吗?

--- 共有 1 条评论 ---
shaofengsh可以参考上面Kylin跟ES的比较;另外,实时性要求高的场景Druid更适合,而大量历史数据的查询更适合Kylin来做;Kylin 1.6推出了流式构建引擎,将数据从产生到被检索的延迟减少到分钟级。 5个月前 回复

@shaofengsh

1. 有与Kylin相似的技术吗?

2. 目前业界的使用情况怎么样了,能解决业务什么场景问题?

--- 共有 1 条评论 ---
shaofengsh据我所知,Kylin是目前唯一开源的、Hadoop上的预计算分析引擎,所以Kylin可谓填补了大数据分析领域的一个空白。在互联网,电信,金融,制造业等行业已经有很多应用,如京东,百度,美团,唯品会,58同城,去哪儿,携程,中国移动,中国银联等都有使用它分析各类数据,分享的案例有很多,建议搜索“apache kylin 实践”,然后可以详细了解。 5个月前 回复

@shaofengsh Kylin目前主要在企业中用于解决什么问题?与同类技术相比,有哪些优劣势?

--- 共有 1 条评论 ---
shaofengshKylin主要解决大数据分析难,分析慢,难以支持高并发,难以跟其它系统集成等一系列问题;它将以前很多繁琐的开发标准化、自动化,用户只需要懂数据模型,就可以来用Kylin分析大数据,整个过程不需要编程。业务用户经过培训后就可以自助使用。Kylin的优势总结下来就是“多”、“快”、“好”、“省”四个字。 5个月前 回复

@shaofengsh  Kylin能秒查巨大Hive表,但在大规模并发查询的时候也能做到秒查吗?提升效率的同时,是否会更增集群负荷?它的应用前景如何?谢谢!

--- 共有 4 条评论 ---
myw31415926 回复 @shaofengsh : 看到了,非常感谢 5个月前 回复
shaofengsh@myw31415926 回复@myw31415926 : 链接被截断了,完整链接是http://blog.csdn.net/zoubf/article/details/52107110 5个月前 回复
myw31415926 回复 @shaofengsh : 谢谢您的回答,不过参考网页打不开了 5个月前 回复
shaofengshKylin的数据源来自Hive,但查询时,已经不访问Hive了(只访问HBase);因为单个查询很快,对集群资源的占用很少,所以Kylin可以支持高并发访问。据一些用户和我们自己的测试,单个节点的Kylin可以支持到每秒50个以上的请求;更高并发的情况下,只要扩展Kylin以及HBase即可。可以参考网易:http://blog.csdn.net/zoubf/article/details/52 5个月前 回复

@shaofengsh   请问kylin支持对增量数据处理吗?

--- 共有 1 条评论 ---
shaofengsh这个必须支持,而且Kylin从一开始就支持按时间的增量构建;用户一般都是按天增量计算;使用方法可以参考此例子:https://kylin.apache.org/docs16/tutorial/cube_build_job.html 5个月前 回复
顶部