分布式表格系统 ​Tera

BSD
C/C++
Linux
百度
2015-03-25
fxsjy

Tera 是一个高性能、可伸缩的数据库系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问,我们使用按行键、列名和时间戳全局排序的三维数据模型组织数据,使用多级Cache系统,充分利用新一代服务器硬件大内存、SSD盘和万兆网卡的性能优势,做到模型灵活的同时,实现了高吞吐与水平扩展。

特性

  • 全局有序

  • 热点自动分片

  • 数据强一致

  • 多版本,自动垃圾收集

  • 按列存储,支持内存表

  • 动态schema

  • 支持表格快照

  • 高效随机读写

数据模型

Tera使用了bigtable的数据模型,可以将一张表格理解为这样一种数据结构:
map<RowKey, map<ColummnFamily:Qualifier, map> > 
其中RowKey、ColumnFamily、Qualifier和Value是字符串,Timestamp是一个64位整形。ColumnFamliy需要建表时指定,是访问控制、版本保留等策略的基本单位。

系统架构

系统主要由Tabletserver、Master和ClientSDK三部分构成。其中Tabletserver是核心服务器,承载着所有的数据管理与访问;Master是系统的仲裁者,负责表格的创建、schema更新与负载均衡;ClientSDK包含供管理员使用的命令行工具teracli和给用户使用的SDK。 表格被按RowKey全局排序,并横向切分成多个Tablet,每个Tablet负责服务RowKey的一个区间,表格又被纵向且分为多个LocalityGroup,一个Tablet的多个Localitygroup在物理上单独存储,可以选择不同的存储介质,以优化访问效率。

架构图

系统依赖

  • 使用分布式文件系统(HDFS、NFS等)持久化数据与元信息

  • 使用zookeeper选主与协调

  • 使用Sofa-pbrpc实现跨进程通信

系统构建

参考BUILD

使用示例

参考wiki

反馈与技术支持

tera_dev@baidu.com

的码云指数为
超过 的项目
加载中

评论(4)

bluebore
bluebore
啦啦啦
s
squirrell
dayreturn
dayreturn
thesonder
thesonder
gay力!

分布式数据库 Tera 发布 0.5.3 版本二进制

百度开源的万亿量级数据库Tera发布0.5.3版本二进制,适配主流x86_64 Linux系统,开箱即玩。 Tera简介 Tera是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链...

2017/01/13 13:56

Tera 0.5.3 发布,百度万亿量级数据库

百度开源的万亿量级数据库Tera发布0.5.3版本。 Tera简介 Tera是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问...

2016/12/21 13:49

百度开源的万亿量级数据库 Tera 发布0.5.2版本

百度开源的万亿量级数据库Tera发布0.5.2版本。 Tera简介 Tera是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问...

2016/12/09 09:34

Tera 0.5.1 发布,百度万亿量级数据库

百度开源的万亿量级数据库Tera发布0.5.1版本。 Tera简介 Tera是一个高性能、可伸缩的结构化数据存储系统,被设计用来管理搜索引擎万亿量级的超链与网页信息。为实现数据的实时分析与高效访问...

2016/11/08 08:33

Tera 0.5.0 发布,百度万亿量级数据库

Tera 0.5.0发布了,更新如下: 源码更新截至2016.08.01 base: master分支 0.5.0 版本要点 动态负载均衡升级,支持写入、扫描负载的均衡 分片分裂合并优化 支持写热点加速分裂 写负载高的tab...

2016/10/25 17:29

没有更多内容

加载失败,请刷新页面

没有更多内容

3
回答
tera有哪些nb的技术内幕

tera可以认为是google BigTable的一个c++实现;与开源的hbase和淘宝的oceanbase这些开源系统,有哪些值得推崇的地方。

2016/10/25 13:23

没有更多内容

加载失败,请刷新页面

没有更多内容

深入理解tera——百度开源万亿级数据库

最近偶然发现百度的同学 00k ,发布了百度万亿级数据库tera。 从介绍可以看出该系统已成为百度spider 3.0和网页数据库的核心模块,管理节点过万,数据存储量级达到pb级。虽然该系统开源较晚,...

2016/10/26 19:36
1K
1
Tera的系统设计

本文介绍了百度的万亿量级数据库Tera的诞生背景、业务场景及需求、设计目标和设计思路。

2016/10/25 14:42
544
4
tera term的ttl脚本使用方法

介绍几个常用的命令 a. 通过Tera Term连接PFC所在的机器以及断开连接 通过TTL的connect/disconnect命令实现 Connect: connect '192.168.137.27 /ssh /auth=password /user=username /passwd...

2011/12/20 14:40
17.2K
0
大于或小于100万,1000万,1亿,10亿,1000亿,万亿,亿亿,10亿亿,100亿亿上下的10个质数(素数)

大于或小于百万,千万,1亿,十亿,百亿,千亿,万亿,十万亿,百万亿,千万亿,亿亿,十亿亿,百亿亿上下的10个质数(素数)。 UINT32_MAX=4294967295 (10位, 42.9亿, 4.294E9) UINT64_MAX=1...

05/12 10:20
125
0
五分钟快速实现leveldb中数据的高可靠

本篇博客将带你五分钟实现leveldb数据的高可靠

2016/12/06 09:18
3.5K
8
一行代码实现数值缩写

什么叫数值缩写 1 => 1 1000 => 1K 10000 => 10K 1000000 => 1M 1000000000 => 1G 数值缩写是将长数值转换成短数值的表示。 之前,这里的缩写单位弄混淆了,详见下表: Prefix Symbol(s) Pow...

2016/03/11 15:34
43
1
PHP格式化(文件)存储数据大小(SIZE)显示

有时候我们需要在网页上显示某个文件的大小,或者是其它数据的大小数字。 这个数字往往从跨度很大,如果以B为单位的话可能是个位,如果1G则长达1073741824的数字,这个时候我们就需要根据大小...

2015/01/24 11:25
13
0
如何利用数据架构带动企业增长?

对于架构师而言,技术的发展是无尽的,在搭建和实践智能数据架构的过程中,架构师们都会或多或少地遇到一些疑惑和挑战,如何解决在架构建设中遇到的某些问题?架构建设的领域又有什么新的行业...

2018/12/12 17:55
9
0
国际单位制词头

中国词头 台湾词头 英语词头 符号 1000m 10n 十进制 启用时间[n 1] 尧[它][n 2] 佑 yotta Y 10008 1024 1000000000000000000000000 1991 泽[它] 皆 zetta Z 10007 1021 1000000000000000000...

2016/09/04 23:38
17
0
【一周热门软件更新】我一口气发布六个版本更新,还有谁?

功能强大的开源数据库 PostgreSQL 如是说道。

2016/10/29 23:17
862
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部