聚合全网技术文章,根据你的阅读喜好进行个性推荐
最近在探索数据仓库搭建,同时也要考虑对接离线计算和实时计算,不知道大家有没有好的方案提供,hive的话查询时间较长,不适合BI人员sql立即查看执行结果,不知有没有其他好的方案提供
要兼容BI使用sql的习惯,还要加速hive查询,可以考虑使用hive外部表,将数据存储到hbase中,第一是提高数据写入性能,第二是提升针对主键查询的性能,然后使用sparksql,替换hive离线分析方式,将数据加载到内存,可明显提升查询性能,但要注意,sparksql主要负责查询,不负责数据写入,所以若要写入,要写到hive上
要兼容BI使用sql的习惯,还要加速hive查询,可以考虑使用hive外部表,将数据存储到hbase中,第一是提高数据写入性能,第二是提升针对主键查询的性能,然后使用sparksql,替换hive离线分析方式,将数据加载到内存,可明显提升查询性能,但要注意,sparksql主要负责查询,不负责数据写入,所以若要写入,要写到hive上