导读:本文是货拉拉大数据引擎负责人杨秋吉在 DataFunSummit 2022 多维分析架构峰会上的演讲分享,分享的主题是《货拉拉基于 Apache Doris 的 OLAP 体系演进及建设方法》,详细讲解了货拉拉从 OLAP1.0 到 3.0 的演进过程,其中不乏有值得借鉴的方法论以及深刻的技术思考,希望能对大家有所帮助。 分享人|货拉拉大数据引擎负责人 杨秋吉 业务背景 货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物...
目录 查询重写介绍 示例:外连接消除Outer2Inner 查询重写介绍 SQL语言是丰富多样的,非常的灵活,不同的开发人员依据经验的不同,手写的SQL语句也是各式各样,另外还可以通过工具自动生成。SQL语言是一种描述性语言,数据库的使用者只是描述了想要的结果,而不关心数据的具体获取方式,输入数据库的SQL语言很难做到是以最优形式表示的,往往隐含了一些冗余信息,这些信息可以被挖掘用来生成更加高效的SQL语句。查询重写就是把用...
Pencil 网易游戏数据与平台的离线平台组高级开发工程师,目前负责 Trino(Presto)/Doris 等组件的开发和业务支持工作。离线平台小组目前为广州互娱的大数据离线计算提供了接近 EB 级别的大数据存储集群服务,以及 Hive/Spark/Presto/Doris/ClickHouse 等计算框架的开发与业务支持。 一、背景 随着公司游戏业务的高速发展,越来越多的分析需求涌现,例如:各类游戏用户行为分析、商业智能分析、数仓报表等。这些场景的数据体量都较...
原创| 得物技术-魏巍 一、背景 现货业务目前基于算法模型+运营配置得出订单预计履约时长,由于时效策略调整需求且现货订单数据回收周期较长,因此需要建设时效仿真平台能力,产品自行根据业务需要进行时效仿真实验并得到对应结果。 1.1 目标 缩短决策周期,分钟级获取时效仿真实验结果; 搭建自助时效仿真平台,节约开发人力; 固化时效仿真能力,提升时效预估模型优化效率; 1.2 难点 每次圈定的时效仿真订单数据超过百万,分...
摘要:在传统数据库中SQL引擎一般指对用户输入的SQL语句进行解析、优化的软件模块。SQL的解析过程主要分为:词法、语法和语义分析。 本文分享自华为云社区《 openGauss内核分析(三):SQL解析》,作者:Gauss松鼠会。 在传统数据库中SQL引擎一般指对用户输入的SQL语句进行解析、优化的软件模块。 SQL的解析过程主要分为: • 词法分析:将用户输入的SQL语句拆解成单词(Token)序列,并识别出关键字、标识、常量等。 • 语法分析:...
导语 PostgreSQL数据库是功能强大的开源数据库,越来越多的公司开始使用PostgreSQL。存储系统是PostgreSQL的最底层模块,它向下通过操作系统接口访问物理数据,向上为上层模块提供存储操作的接口和函数。本文通过对PostgreSQL的存储结构进行浅析,帮助大家了解这一强大的关系型数据库是如何存储数据的。 - 数据目录 - PostgreSQL安装完成后必须先使用initdb程序初始化磁盘上的数据存储区,生成模板数据库和相应的目录、文件信息...
> 本文首发于 **[Nebula Graph Community 公众号](https://c1n.cn/06ghR)**  ## 一、项目背景 微澜是一款用于查询技术、行业、企业、科研机构、学科及其关系的知识图谱应用,其中包含着百亿级的关系和数十亿级的实体,为了使这套业务能够完美运行起来,经过...
MongoDB在腾讯零售优码中的应用 CSIG腾讯优码团队/腾讯云MongoDB团队 本文主要分享腾讯智慧零售团队优码业务在MongoDB中的应用,采用MongoDB作为主存储服务给业务带来了较大收益,主要包括:高性能、快捷的DDL操作、低存储成本、超大存储容量等收益,极大的降低了业务存储成本,并提升了业务迭代开发效率。 业务场景 腾讯优码从连接消费者到连接渠道终端,实现以货的数字化为基础的企业数字化升级,包含营销能力升级和动销能力升...
编者荐语:随着领创集团的快速发展,为了满足十亿级数据量的实时报表统计与决策分析,领创集团选择了 Flink + Doris 的实时数仓方案。本篇文章详尽了介绍了此方案的实践过程。 以下文章来源于领创集团Advance Group, 作者苏浩 原文链接:https://mp.weixin.qq.com/s/qg_4nsfo5gxwe8_1OiWVSA 业务背景 Advance Intelligence Group(领创集团)成立于 2016 年,是一家以 AI 技术驱动的科技集团,致力于通过科技创新的本地化应用,...
随着累积的数据量的增大,大数据业务量的增多,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大。同时,大数据处理组件多,不同组件使用不同的数据处理格式,比如大家熟悉的数据湖、数据仓库使用的就是不同的格式,多样化的数据格式导致数据存储变得复杂,系统中应对不同的场景,往往同样的数据需要存储多份,不同组件之间还需要大量的数据拷贝和格式转换,消耗大量的资源。 在当前越来越强调云原生的环境下,存...
 > **导读**:很多同学在使用Go和数据库打交道的过程中,经常会遇到一些异常不知道为什么,本文从SQL连接池的原理进行分析,模拟了一些例子对异常的现象进行解读分析,并给出一些常见的应对手段,期望能帮助到大家。 > > > > _全文12795字,预计阅读时间32分钟_ 有很多同学遇到了 MySQL 查询缓慢的问...
应用实践 | Apache Doris 整合 Iceberg + Flink CDC 构建实时湖仓一体的联邦查询分析架构 导读:这是一篇非常完整全面的应用技术干货,手把手教你如何使用 Doris+Iceberg+Flink CDC 构建实时湖仓一体的联邦查询分析架构。按照本文中步骤一步步完成,完整体验搭建操作的完整过程。 作者|Apache Doris PMC 成员 张家锋 1.概览 这篇教程将展示如何使用 Doris+Iceberg+Flink CDC 构建实时湖仓一体的联邦查询分析,Doris 1.1版本提供...
目录 存储方式比较 优缺点比较 行存与列存实验 选择建议 注意事项 好多人最开始学习数据库的时候,是关系数据库,数据以表格形式存储,一行表示一条记录。其实这种就是典型的行存储(Row-based store),将表按行存储到磁盘分区上。 而一些数据库还支持列存储(Column-based store),它将表按列存储到磁盘分区上。 存储方式比较 这两者的差异如下图: 从图上可以看出,行存的时候,一行记录的属性值存储在临近的空间,然后接着...
原文来源:https://tidb.net/blog/7747fec7 故事背景 上周同事收到tidb生产集群告警,node_exporter组件发生了重启,与同事交流了一下相关历史告警,发现node_exporter组件总是时不时的重启,并触发告警,并且整个集群各个节点都有发生过这个现象。 这里先简单介绍下node_exporter组件相关背景以及它的作用:TiDB 使用开源时序数据库 Prometheus 作为监控和性能指标信息存储方案,而node_exporter是Prometheus的指标数据收集组件...
作者: Zeratulll 原文来源:https://tidb.net/blog/9468d259 MySQL中,一般情况下我们不需要关注有序数据的写入在Innodb的Btree上是否存在热点,因为它能承担的吞吐量是比较大的,在单机的范畴内不太容易达到瓶颈。 但是在TiDB中,写入有序数据很容易导致热点,这个热点与单机数据库不同。如果一个节点成为了热点(只有它在工作,或者所有请求都需要访问它),那整个集群无论增加多少台机器,都对提升数据库的性能容量毫无帮助...
作者: Ann_ann 原文来源:https://tidb.net/blog/6035684e 理想型的数据库应该具备的特点 强一致性和高可用; 高吞吐、高并发、低延迟; 标准SQL、支持 ACID 事务; 大数据生态友好; 有水平扩张能力,并且尽量做到不侵入业务; 数据库架构选型 TiDB与MySQL对比 TiDB 和 MySQL 兼容策略 可参考:https://docs.pingcap.com/zh/tidb/stable/mysql-compatibility 截至 4.0 版本,TiDB 与 MySQL 的区别总结: 对于海量数据及大表的...
\n> 原文来源:https://tidb.net/blog/b29eb6fd\n\n# 背景 在 v6.0.0 版本,针对悲观事务引入了内存悲观锁的优化(In-memory lock),从压测数据来看,带来的性能提升非常明显(Sysbench 工具压测 oltp_write_only 脚本)。 Tps 提升 30% 左右 减少 Latency 在 15% 左右 TiDB 事务模型从最初的乐观事务到悲观事务;在悲观事务上,又针对悲观锁进行的 ”Pipelined 写入“ 和 ”In-memory lock“ 优化,从功能特性上可以看出演进过...
\n> 原文来源:https://tidb.net/blog/845e490e\n\n本文演示如何使用C#语言实现对TiDB的基础增删改查操作,包含了C#中常用的几种数据库访问方式。 相关环境 Ubuntu 18.04 .NET 6.0 C# 10 Visual Studio Code 1.63.2 TiDB 6.0-DMR 创建TiDB测试集群 你可以使用以下方式快速搭建一个TiDB测试集群: 使用TiDB Cloud免费创建在线集群 使用TiUP部署本地测试集群 使用TiUP部署标准TiDB集群 使用 TiDB Operator在Kubernetes中部署TiDB集...
> 本文首发于 **[Nebula Graph Community 公众号](https://c1n.cn/mUzKD)** > 本次实践是基于业务需求及后续扩展,通过技术选型确定了 Nebula Graph 图数据库,首先需要验证 Nebula Graph 数据库在实际业务场景下批量导入性能并验证。通过 Spark On Yarn 分布式任务执行导入工作,CSV 文件放在 HDFS 上,分享下个人 Nebula Spark Connector 最佳实践。。 ## 一、Nebula Spark Connector 概念、适用场景、优势 这里不做赘述,仅截...
摘要:本文将围绕WITH,以及更高阶的WITH RECURSIVE表达式介绍其语法特征和具体使用规范,以及在GaussDB(DWS)中如何进行WITH表达式的调优 本文分享自华为云社区《GaussDB(DWS) SQL进阶之SQL操作之WITH表达式》,作者: 两杯咖啡 。 SQL标准1999中,在传统SQL语法的基础上增加了with表达式的使用,使得SQL语句的编程可以更加灵活和具备可扩展性。本文将围绕with,以及更高阶的with recursive表达式介绍其语法特征和具体使用规范,...
没有更多内容
加载失败,请刷新页面
背景在21年,中台拆分在21年,以下为中台拆分的过程心得,带有一定的主观,偏向于中小团队中台建设参考(这里的中小团队指3-100人的团队),对于大型团队不太适用,毕竟大型团队人中/技术充足...
前言 Hertz 是字节跳动服务框架团队研发的超大规模的企业级微服务 HTTP 框架,具有高易用性、易扩展、低时延等特点。在经过了字节跳动内部一年多的使用和迭代,如今已在 CloudWeGo 正式开源。...
原创|得物技术-凌遥 导读 Mock是一个接口编辑模拟工具,可以快速手动或者基于YAPI创建Mock接口模拟数据调试,同时支持场景,场景组的快速切换,方便在开发期和测试阶段试验不同数据返回的U...
前言 如标题,最终查明问题是因为 mysql-connector-java:8.0.28 的一个 bug 导致的。但是在真相未浮出之前,整个问题可谓扑朔迷离,博主好久没有排查过如此得劲的 bug ,随着一层层的 debug ...
导读:百度APP内含有现金、活动、虚拟等多类资产信息,分布于百度APP内各个业务线中,用户回访信息难度较高,且用户对百度资产认知度不高。我的钱包建立后,汇聚百度APP内所有用户资产信息,...
vivo 互联网服务器团队 - Ma Jian 一、概述 SPI(Service Provider Interface),是Java内置的一种服务提供发现机制,可以用来提高框架的扩展性,主要用于框架的开发中,比如Dubbo,不同框架...
前端自动化构建之Gulp 本篇文章的核心是介绍一款强大的任务流工具Gulp,之所以题目叫做“前端自动化构建之Gulp”,是因为Gulp本身是使用JS编写的运行在Node环境的一个npm包,并且大部分开发者...
Redis 拥有高性能的数据读写功能,被我们广泛用在缓存场景,一是能提高业务系统的性能,二是为数据库抵挡了高并发的流量请求,点我 -> 解密 Redis 为什么这么快的秘密。 把 Redis 作为缓存组...
作者:聂晓龙(率鸽) 读 A Philosophy of Software Design 有感,软件设计与架构复杂度,你是战术龙卷风吗? 前言 有一天,一个医生和一个土木工程师在一起争论“谁是世界上最古老的职业”。...
前言 Nexus 是开源的 Maven 私服仓库,同时 Nexus 还支持 Npm 、 .Net、Golang 、Python 等开发语言的包管理。Nexus 也是我们重度使用的一个应用,Nexus 保存着 Tap 各开发组的代码构建产物。...
1 背景 技术方案设计和评审是版本迭代的一个重要环节,一般情况下版本迭代交付,技术方案设计在2-3天,颗粒度大的需求或者独立项目,这一个环节的时间会适度拉长,但是整体时间还是比较紧凑。...
本文适合有一定编程基础的同学阅读,但不要求有任何专业方向的经验。写作目的,一是撺掇各路英豪一起做开源,二是记录一下新项目的选型设计和概念验证过程。全文小一万字(知乎那个字数统计…...
作者:何瑾(潇珺) 本文为《Cube 技术解读》系列第四篇文章,往期文章欢迎大家回顾。 《Cube 技术解读 | Cube 小程序技术详解》 《Cube 技术解读 | 支付宝新一代动态化技术架构与选型综述》 ...
作者:泮圣伟(十眠) 如何有效利用云产品做好我们的业务大促备战,这是一个大家都比较关心的问题。今天趁着 618 大促来袭前,谈一谈我们所积累的最佳实践。 点击下方链接,立即查看视频讲解...
减小应用安装包的体积,对提升用户体验和下载转化率都大有益处。本文将结合美团平台的实践经验,分享 so 体积优化的思路、收益,以及工程实践中的注意事项。本文将先从 so 文件格式讲起,结合...
DX全称DinamicX,目前是在淘宝乃至整个阿里集团内广泛使用的Native动态化方案,核心优势是性能和稳定性。过去几年一直有其他淘宝/集团的外部文章中有涉及到DX,但DX一直没有对外做过完整介绍...
本文首发于微信公众号“Shopee技术团队” 。 作者:Pei,来自 Shopee 商家服务前端团队。 1. 背景 Shopee 的许多手机应用是原生与 React Native(下文简称 “RN”)的混合(hybrid)应用。在...
对实时数据湖的解读 数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。 数据湖的概念最早是在 Hadoop World 大会上提出的。当时的...
之前我们已经看过了 Golang 常见设计模式中的装饰和选项模式,今天要看的是 Golang 设计模式里最简单的单例模式。单例模式的作用是确保无论对象被实例化多少次,全局都只有一个实例存在。根据...
> 全文建立在MySQL的存储引擎为InnoDB的基础上 先看一条SQL如何入库的: 这是一条很简单的更新SQL,从MySQL服务端接收到SQL到落盘,先后经过了MySQL Server层和InnoDB存储引擎。 Server层就像...
没有更多内容
加载失败,请刷新页面