精彩博客

刚哥谈架构 (五) 谈谈数据库架构

无论是构建什么样的应用,大都离不开数据。而在应用的架构设计中,如何设计数据库,使用什么类型的数据库,就是一个架构师必须了解的。所有的数据库的共同点都是以某种方式存储数据,以某种接...

02/17 06:12
1.5W
1
网络对Ignite集群性能的负面影响

内存访问比磁盘I/O快得多,以至于许多人希望仅通过从部署的分布式内存集群中读取数据就可以获得惊人的性能提升。但是不要忽略应用是通过网络与集群节点互联的事实,并且如果大量数据通过网络...

01/31 13:57
1.6K
0
机器学习在马蜂窝酒店聚合中的应用初探

马蜂窝技术原创内容,更多干货请关注公众号:mfwtech 出门旅行,订酒店是必不可少的一个环节。住得干净、舒心对于每个出门在外的人来说都非常重要。 在线预订酒店让这件事更加方便。当用户在...

01/17 15:31
1.1W
0
MySQL 8.0发布,你熟悉又陌生的Hash Join?

昨天下午在查资料的时候,无意间点到了MySQL的官网。发现MySQL发布了一个新版本。 Mysql这个数据库有没有人不熟悉?不用的?没有吧。 2019年末,MySQL发布的8.0.18 GA版本,带来了一些新特性...

01/15 22:48
5.7K
1
Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同...

01/03 14:15
1.8K
0
复杂分布式架构下的计算治理之路:计算中间件 Linkis

前言 在当前的复杂分布式架构环境下,服务治理已经大行其道。但目光往下一层,从上层 APP、Service,到底层计算引擎这一层面,却还是各个引擎各自为政,Client-Server 模式紧耦合满天飞的情况...

01/02 15:49
3.6K
6
ceph 集群主动分裂

ceph 集群分裂 1 原理 1.1 概述 ceph 集群分裂,本来就是一个违反常理的事情。从ceph的设计原理上就是预防分裂,而且很对分裂有一个专有名词“脑裂”。 什么是脑裂?1个集群分裂为 2个集群叫...

01/02 14:23
710
0
揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”

我是我:“缘起于美丽,相识于邂逅,厮守到白头!” 众听众:“呃,难道今天是要分享如何作诗?!” 我是我:“大家不要误会,今天主要的分享不是如何作诗,而是《揭秘:‘撩’大数据的正确姿...

2019/12/31 10:42
5.1K
2
大数据平台架构设计探究

本文首发于 vivo互联网技术 微信公众号 链接:https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA 作者:刘延江 近年来,随着IT技术与大数据、机器学习、算法方向的不断发展,越来越多的企业...

2019/12/23 10:21
2.9K
4
生产事故(MongoDB数据分布不均解决方案)

事故集合: 可以很明显可以看到我们这个集合的数据严重分布不均匀。 一共有8个分片,面对这个情况我首先想到的是手动拆分数据块,但这不是解决此问题的根本办法。 造成此次生产事故的首要原因...

2019/11/29 10:52
1.2K
0
KTV歌曲推荐-深入浅出协同过滤

前言 推荐算法有很多,最基础的就是协同过滤,前段时间对KTV数据比较感兴趣,大家去唱歌也只是唱熟悉的歌,那是不是有办法给大家一些建议拓展一下唱歌的宽度呢。KTV推荐可能要考虑很多因素,...

2019/11/14 12:05
2.8K
5
马蜂窝推荐排序算法模型是如何实现快速迭代的

(马蜂窝技术原创文章,微信ID:mfwtech) Part.1马蜂窝推荐系统架构 马蜂窝推荐系统主要由召回(Match)、排序(Rank)、重排序(Rerank)几个部分组成,整体架构图如下: 在召回阶段,系统...

2019/11/08 16:19
777
0
Spark Core 解析:RDD

引言 Spark Core是Spark的核心部分,是Spark SQL,Spark Streaming,Spark MLlib等等其他模块的基础, Spark Core提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分...

2019/10/28 20:56
294
2
kylin集群解决无法加载到RowKeyWritable类

问题:cdh集成kylin之后,对kylin的cube进行build操作的时候,在Convert Cuboid Data to HFile步骤报错:Class org.apache.kylin.storage.hbase.steps.RowKeyWritable not found 问题分析:加...

2019/10/28 14:40
237
0
在LINQPad中使用Ignite.NET

LINQPad是进行.NET开发的一款优秀工具,非常有利于Ignite.NET API的快速入门。 入门 下载LINQPad:linqpad.net/Download.aspx,注意要选择64位操作系统的AnyCPU版本; 安装Ignite.NET的NuGet...

2019/10/16 23:15
1.9K
0
数据模型之版本管理

转载本文需注明出处:微信公众号EAWorld,违者必究。 引言: 主数据是描述企业核心数据、业务对象,当记录到数据库中时,需要对其进行维护,确保其时效性、准确性。数据模型管理是重要的环节...

2019/10/09 10:35
617
1
马蜂窝数据仓库的架构、模型与应用实践

(马蜂窝技术原创内容,公众号ID:mfwtech) 一、马蜂窝数据仓库与数据中台 最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。 数据中台到底是什么...

2019/10/08 11:25
4.5K
2
Scala implicit 隐式转换安全驾驶指南

这篇短文将结合实例对隐式转换的各种场景进行解释和总结,希望看完的人能够安全驶过隐式转换这个大坑。 隐式转换函数 隐式转换函数有两种作用场景。 1 转换为期望类型:就是指一旦编译器看到...

2019/09/29 23:03
1K
2
GNE——准确率高达99.9%的新闻类网页通用抽取器

项目起源 开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》) 这篇论文中描述的算法看起来简洁清晰,并且符合逻...

2019/09/27 10:05
1.3K
0
在Ignite中自定义身份认证安全插件

Ignite集群搭建完成之后,应用就可以接入集群进行各种操作了,但是默认的集群,没有安全保护机制,任何应用、支持JDBC的客户端,只要知道集群节点的IP地址,都可以接入集群,这造成了一定的安...

2019/09/18 12:49
1.4K
0

没有更多内容

加载失败,请刷新页面

机器学习在马蜂窝酒店聚合中的应用初探

马蜂窝技术原创内容,更多干货请关注公众号:mfwtech 出门旅行,订酒店是必不可少的一个环节。住得干净、舒心对于每个出门在外的人来说都非常重要。 在线预订酒店让这件事更加方便。当用户在...

01/17 15:31
1.1W
0
揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”

我是我:“缘起于美丽,相识于邂逅,厮守到白头!” 众听众:“呃,难道今天是要分享如何作诗?!” 我是我:“大家不要误会,今天主要的分享不是如何作诗,而是《揭秘:‘撩’大数据的正确姿...

2019/12/31 10:42
5.1K
2
KTV歌曲推荐-深入浅出协同过滤

前言 推荐算法有很多,最基础的就是协同过滤,前段时间对KTV数据比较感兴趣,大家去唱歌也只是唱熟悉的歌,那是不是有办法给大家一些建议拓展一下唱歌的宽度呢。KTV推荐可能要考虑很多因素,...

2019/11/14 12:05
2.8K
5
Scala implicit 隐式转换安全驾驶指南

这篇短文将结合实例对隐式转换的各种场景进行解释和总结,希望看完的人能够安全驶过隐式转换这个大坑。 隐式转换函数 隐式转换函数有两种作用场景。 1 转换为期望类型:就是指一旦编译器看到...

2019/09/29 23:03
1K
2
云端数据仓库的模式选型与建设

数据,对一个企业的重要性不言而喻,如何利用好企业内部数据,发挥数据的更大价值,对于企业管理者而言尤为重要。作为最传统的数据应用之一,数据仓库在企业内部扮演着重要的角色,构建并正确...

2019/08/29 10:24
3K
8
Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?

前言 如今,许多用于分析大型数据集的开源系统都是用 Java 或者是基于 JVM 的编程语言实现的。最着名的例子是 Apache Hadoop,还有较新的框架,如 Apache Spark、Apache Drill、Apache Flin...

2019/08/11 22:14
7.2K
5
关系型数据库全表扫描分片详解

导读:数据总线(DBus)专注于数据的实时采集与实时分发,可以对IT系统在业务流程中产生的数据进行汇聚,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费,充...

2019/08/02 10:28
2.5K
1
谈谈机器学习模型的可解释性

随着AI和机器学习的发展,越来越多的决策会交给自动化的机器学习算法来做。但是当我们把一些非常重要的决定交给机器的时候,我们真的放心么?当波音飞机忽略驾驶员的指令,决定义无反顾的冲向...

2019/07/02 03:01
2.1K
9
再谈使用开源软件搭建数据分析平台

三年前,我写了这篇博客使用开源软件快速搭建数据分析平台, 当时收到了许多的反馈,有50个点赞和300+的收藏。到现在我还能收到一些关于dataplay2的问题。在过去的三年,开源社区和新技术的发...

2019/04/20 00:54
9.2K
7
现代IM系统中的消息系统架构 - 架构篇

前言 IM全称是『Instant Messaging』,中文名是即时通讯。在这个高度信息化的移动互联网时代,生活中IM类产品已经成为必备品,比较有名的如钉钉、微信、QQ等以IM为核心功能的产品。当然目前微...

2019/04/16 14:34
3K
8
Apache Ignite上的TensorFlow

任何深度学习都是从数据开始的,这是关键点。没有数据,就无法训练模型,也无法评估模型质量,更无法做出预测,因此,数据源非常重要。在做研究、构建新的神经网络架构、以及做实验时,会习惯...

2019/03/20 12:06
3.2K
1
Kafka连接器深度解读之JDBC源连接器

在现实业务中,Kafka经常会遇到的一个集成场景就是,从数据库获取数据,因为关系数据库是一个非常丰富的事件源。数据库中的现有数据以及对该数据的任何更改都可以流式传输到Kafka主题中,在这...

2019/03/12 14:02
2.5K
5
自动机器学习简述(AutoML)

为什么需要自动机器学习 对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响。随着深度学习的流行,工程师需要选择相应的神经网络架构,训练过...

2019/02/19 02:46
1.3W
5
缓存伪共享问题以及解决方案缓存行填充

缓存伪共享 共享对象存在同一个缓存中,由于MESI协议,一个对象中一些不需要改变的属性因为其他改变的属性,导致整个对象的缓存进入到M被修改状态。 MESI缓存一致性协议:https://blog.csdn...

2019/01/29 16:52
2.8K
2
百亿次的锤炼 - 地狱模式的分布式系统测试

本文以近期开源的Dragonboat多组Raft库为例,介绍Dragonboat这样一个典型分布式系统是如何做测试的。Dragonboat以Go实现,能在普通硬件上提供每秒1000万次以上的强一致读写,它是目前github....

2019/01/18 18:50
2.7K
6
为什么说Laxcus颠覆了我的大数据使用体验

切入正题前,先做个自我介绍。 本人是从业三年的大数据小码农一枚,在帝都一家有点名气的广告公司工作,同时兼着大数据管理员的职责。 平时主要的工作是配合业务部门,做各种广告大数据计算分...

2018/12/16 17:02
4K
5
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

【背景介绍】 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使...

2018/11/20 09:42
1.9W
19
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

2018/10/05 03:00
1.7W
5
利用TICK搭建Docker容器可视化监控中心

概述 性能监控是容器服务必不可少的基础设施,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息。在我的前文《Doc...

2018/07/05 07:08
3.2K
2
玩转 Elasticsearch 的 SQL 功能

最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修...

2018/06/28 09:25
9.5K
11

没有更多内容

加载失败,请刷新页面

Flume概述及组成

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并...

昨天 19:39
79
0
zookeeper(client-server身份认证-SASL配置)

zookeeper集群基础安装可参考 https://my.oschina.net/dingyibo/blog/3160232 zookeeper集群server间认证配置可参考 https://my.oschina.net/dingyibo/blog/3160232 zk client-server身份认证...

昨天 17:02
66
0
云服务器ECS共享标准型S6全新发布,行业内最具性价比

近日,阿里云弹性计算发布全新一代云服务ECS共享标准型S6,性能相对上一代实例提升15%以上,价格相对上一代最高降低42%,是目前国内云计算厂商更能够提供的最具性价比的云服务器产品。一些中...

昨天 16:04
65
0
百万TPS高吞吐、秒级低延迟,阿里​搜索离线平台如何实现?

导读:阿里主搜(淘宝天猫搜索)是搜索离线平台非常重要的一个业务,具有数据量大、一对多的表很多、源表的总数多和热点数据等特性。对于将主搜这种逻辑复杂的大数据量应用迁移到搜索离线平台...

昨天 15:49
47
0
科技战“疫”系列(八)丨神州信息参与数据标准,支持疫情数据共享开放

日前,为有效应对新冠肺炎疫情蔓延,国家号召”组织动员全国科研工作者参与疫情防控方面的科研攻关,推动相关数据和病例资料的开放共享”。中国电子技术标准化研究院作为全国信标委大数据标准...

昨天 10:46
57
0
抗击新冠病毒(7)-全国治愈与新增病例平衡分析

# default_exp china # 上面一行用于nbdev中声明本模块的名称。必须是notebook的第一个Cell的第一行。 china_balance 描述:抗击新冠病毒(7)- 全国治愈与新增病例平衡分析。 功能:载入dat...

前天 22:19
130
0
Flink事件时间、水印和迟到数据处理

事件时间与水印 所谓事件时间,就是Flink DataStream中的数据元素自身带有的、在其实际发生时记录的时间戳,具有业务含义,并与系统时间独立。很显然,由于外部系统产生的数据往往不能及时、...

前天 21:58
73
0
速度收藏!看完这份知识图谱,才算搞懂 Flink!

先跟大家分享一个好消息!即日起,Apache Flink 社区微信公众号 Ververica 正式更名为 Flink 中文社区 并由 Apache Flink PMC 成员进行维护,是国内唯一的 Flink 社区官方微信公众号,详细信...

前天 15:14
68
0
手把手教你 WordPress 使用阿里云 CDN 教程,让你的网站飞起来

研究表明,用户最满意的打开网页时间,是在 2 秒以下。用户能够忍受的最长等待时间在 6~8 秒之间。就是说,8 秒是一个临界值,如果你的网站打开速度在 8 秒以上,那么你将失去大部分用户。研...

前天 14:43
48
0
五分钟学会使用 go modules(含在家办公使用技巧)

导读:go modules 是 golang 1.11 新加的特性。如今 1.13 都已经发布了第 7 个小版本了,几乎所有大项目均已开始使用,这自然也包括 Kubernetes 生态中的众多项目。笔者在开发 OAM 相关项目的...

前天 14:36
48
0
如何使用性能测试PTS在一分钟内发起压测?

PTS 支持导入脚本、使用场景模板、录制器和手动创建等方式快速发起压测。本文以手动创建方式,对某网站登录页快速发起压测为例,介绍如何使用 PTS 在一分钟内发起压测。 前提条件 您已开通 ...

前天 12:23
36
0
win10 hadoop NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDes

在win10 下 运行 hadoop api 代码,下载代码的时候报错 爆了这个错误 NativeIO$Windows.createFileWithMode0(Ljava/lang/String;JJJI)Ljava/io/FileDes /** * 拷贝HDFS文件到本地:下载 */.....

02/18 19:42
102
0
调度系统设计精要

导读:本文作者写这篇文章前前后后大概 2 个月的时间,全文大概 2w 字,建议收藏后阅读或者通过电脑阅读。 调度是一个非常广泛的概念,很多领域都会使用调度这个术语,在计算机科学中,调度就...

02/18 14:28
123
0
从零开始入门 K8s | 有状态应用编排 - StatefulSet

本文整理自《CNCF x Alibaba 云原生技术公开课》第 22 讲。 关注“阿里巴巴云原生”公众号,回复关键词“入门”,即可下载从零入门 K8s 系列文章 PPT。 导读:有状态应用的部署交付向来都是应...

02/18 14:24
40
0
OAM 深入解读:OAM 为云原生应用带来哪些价值?

导读:OAM 是阿里巴巴联合微软在社区推出的一款用于构建和交付云原生应用的标准规范,旨在通过全新的应用定义、运维、分发与交付模型,推动应用管理技术向“轻运维”的方向迈进,全力开启下一...

02/18 13:43
86
0
开发函数计算的正确姿势——轻松解决大依赖部署

前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute): 函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计...

02/18 13:39
35
0
《素数之恋》读书笔记

18年有个数学家宣布成功证明了RH,引起了业界轰动,虽然最后发现其证明错了,但也由此引发众人对RH的关注,上百年来众多数学家针对RH开展的各种传奇一般的工作过程也颇为有趣。 《素数之恋》...

02/18 13:29
38
0
EHPC工业仿真

场景描述 本实践适用于使用弹性高性能计算EHPC+ 对象存储OSS运行仿真软件进行模型仿真 的场景中,这里运行的是LAMMPS这款开 源的仿真软件,数据通过OSS上传。 部署架构图 解决问题 1. 使用E...

02/18 10:37
95
0
快速上手CDN,加速你的域名

按照本文档操作,您可以快速上手阿里云CDN,加速您的域名。快速入门主要包含开通CDN服务、添加加速域名和配置CNAME三个步骤。 前提条件 开通CDN服务前,请确保您已经完成阿里云账号注册和实名...

02/18 10:34
77
0
了解Web应用防火墙的计费规则,便于您更合理地使用 WAF

包年包月模式 计费项:按所选购的套餐版本计费。 付费方式:预付费。 计费周期:按月/年计费,购买时生成账单付费。 扣费周期:自购买当日起,根据所选择的购买时长(月/年)计算;购买时长支...

02/18 10:32
56
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部