Pinot 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Pinot 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 企业应用BI商业智能
开发厂商 LinkedIn
地区 不详
提 交 者 红薯
适用人群 未知
收录时间 2015-06-12

软件简介

Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。

Pinot 特别适合这样的数据分析场景:分析模型固定,数据只追加以及低延迟,以及分析结果可查询。

关键特性:

  • 面向列的数据库,提供多种压缩模式,如运行长度、固定比特长度

  • 可插入式的索引技术,包括可排序索引、Bitmap 索引和反向索引

  • 可根据查询和段元数据对查询和执行进行优化

  • 近乎实时的从 Kafka 获取数据,以及批量从 Hadoop 获取数据

  • 类 SQL 的语言支持查询、聚合、过滤、分组、排序和去重

  • 支持多值字段

  • 水平伸缩以及容错

Pinot 非常使用用来查询时许数据以及大维度的数组。

Pinot 的组件架构:

Pinot 核心概念:

示例查询:

/*Total number of documents in the table*/
select count(*) from baseballStats limit 0

/*Top 5 run scorers of all time*/ 
select sum('runs') from baseballStats group by playerName top 5 limit 0

/*Top 5 run scorers of the year 2000*/
select sum('runs') from baseballStats where yearID=2000 group by playerName top 5 limit 0

/*Top 10 run scorers after 2000*/
select sum('runs') from baseballStats where yearID>=2000 group by playerName limit 0

/*Select playerName,runs,homeRuns for 10 records from the table and order them by yearID*/
select playerName,runs,homeRuns from baseballStats order by yearID limit 1
展开阅读全文

代码

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2019/08/08 20:27

apache pinot-docker-compose 运行试用

apache pinot 是一个实时的OLAP 数据存储,同时包含了自己的查询语言,因为maven 构建花费时间较大 所以使用docker-compose 运行 docker-compose 文件 version: "3.7" services: app: image: winedepot/pinot:0.1.4-SNAPSHOT entrypoint: ./bin/quick-start-offline.sh ports: - "9000:9000" - "8...

0
0
2015/05/03 09:40

LinkedIn Samza

Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。

0
0
发表了博客
2015/07/24 00:28

LinkedIn架构进化简史 Brief History Scaling Linkedin

介绍了LinkedIn自2003年以来技术架构的演化过程,主要包括leo,数据库分离分区、SOA、缓存、Kafka、Rest.li等技术的使用。

0
24
发表于服务端专区
2014/07/10 00:49

Linkedin Samza

Samza CheckPoint A checkpoint is a mapping of all the streams a job is consuming and the most recent current offset for each. From org.apache.samza.checkpoint.CheckPoint.java Samza提供一种容错的流式处理机制 数据流流可能会订阅一个或者多个分区 分区之间彼此独立且可以相互复制 每...

0
0
04/17 10:30

Linkedin TonY

背景说明:TensorFlowOnYARN开源时间较早,目前作者已经停止维护,业内推荐TonY系统; 安装环境:Centos 7.0或以上,物理机,Python-2.7.5虚拟环境(默认),tensorflow-1.13.1; 下载地址:https://github.com/li...

0
0
发表了博客
2019/04/25 05:56

LinkedIn TAG

1 [leetcode]243. Shortest Word Distance最短单词距离 Two Pointers 2 [leetcode]244. Shortest Word Distance II最短单词距离(允许连环call) HashMap+Merge Sort 3 [leetcode]245. Shortest Word Distance III最短单词距离(word1可能等于word2) Two Pointers 4 [leetcode]15. 3Sum三数之和 Two Pointers(left&right) 5...

0
0
发表于DevOps专区
2014/02/14 16:57

about LinkedIn glu

install

0
1
发表于程序人生专区
10/06 12:27

Linkedin 的蓝色药丸

看到有同学提到蓝色药丸(https://testerhome.com/topics/7200),感兴趣去看了下,随手翻译过来,理念还不错。原文在这里: https://engineering.linkedin.com/blog/2017/01/open-sourcing-bluepill--run-ios-te......

0
0
发表于AI & 大数据专区
2017/03/29 17:30

LinkedIn kafka-monitor

介绍 最近一直在寻找合适的kafka监控软件,希望该软件既有kafka管理功能,又有kafka监控功能,目前流行的kafka manager在管理方面还凑活,但是监控方面做得不是很好,比如单个topic的消息出入速率,消费者的消费延...

0
0
发表于软件架构专区
02/21 13:33

LinkedIn架构这十年

自2003年创立至今,LinkedIn全球用户数已经从第一周的2700增长到了现在的3个多亿。它每天每秒都要提供成千上万的网页请求,而且移动账户已经占据了全球50%的流量。所有这些请求都是从他们的后台系统获取数据,而这...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/10/14 10:57

有没有人使用Pinot ,部署过一个成功项目

有没有人使用Pinot ,部署过一个成功项目有没有人使用Pinot ,部署过一个成功项目 使用在公司的生产上@红薯

2
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
153 收藏
分享
返回顶部
顶部