精彩博客

Spark 源码分析之ShuffleMapTask处理

Spark 源码分析之ShuffleMapTask处理 更多资源 SPARK 源码分析技术分享(bilibilid视频汇总套装视频): https://www.bilibili.com/video/av37442139/ github: https://github.com/opensourcete...

12/07 20:25
78
0
Spark TaskSchedulerImpl TaskSet处理

Spark TaskSchedulerImpl TaskSet处理 更多资源 SPARK 源码分析技术分享(bilibilid视频汇总套装视频): https://www.bilibili.com/video/av37442139/ github: https://github.com/opensource...

12/06 19:25
31
0
在Ignite中使用k-均值聚类算法

在本系列前面的文章中,简单介绍了一下Ignite的k-最近邻(k-NN)分类算法,下面会尝试另一个机器学习算法,即使用泰坦尼克数据集介绍k-均值聚类算法。正好,Kaggle提供了CSV格式的数据集,而要...

12/03 19:49
109
0
MapReduce 的 shuffle 机制

由于 MapReduce 确保每个 reducer 的输入都是按键排序的,因此在 map 处理完数据之后传给 reducer 的这个过程中需要进行一系列操作,这个操作过程就是 shuffle。在《hadoop权威指南》中指出,...

12/03 18:41
172
0
在Ignite中使用k-最近邻(k-NN)分类算法

在本系列前面的文章中,简单介绍了一下Ignite的线性回归算法,下面会尝试另一个机器学习算法,即k-最近邻(k-NN)分类。该算法基于对象k个最近邻中最常见的类来对对象进行分类,可用于确定类成...

11/28 16:53
142
1
Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和...

11/24 20:38
160
0
在Ignite中使用线性回归算法

在本系列前面的文章中,简单介绍了一下Ignite的机器学习网格,下面会趁热打铁,结合一些示例,深入介绍Ignite支持的一些机器学习算法。 如果要找合适的数据集,会发现可用的有很多,但是对于...

11/22 00:24
88
1
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

【背景介绍】 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使...

11/20 09:42
5.9K
16
技术和商业的碰撞,谈阿里云与天猫双11这十年

摘要: 2009年,发生了两件看似不起眼的事。 初春刚过,阿里云在北京一栋没有暖气的写字楼写下了飞天第一行代码。 同年11月11日,淘宝商城启动了一个叫做双11的促销活动。 谁也没想到,多年以...

11/12 18:06
588
0
如何构建一个flink sql平台

我们都知道,离线计算有Hive,使用过的知道,需要先定义一个schema,比如针对HDFS这种存储对标mysql定义一个schema,schema的本质是什么?主要描述下面这些信息 1)当前存储的物理位置的描述 ...

10/26 15:52
2.1K
4
Spark Parquet file split

在实际使用 spark + parquet 的时候, 遇到了两个不解的地方: 我们只有一个 parquet 文件(小于 hdfs block size), 但是 spark 在某个 stage 生成了4个 tasks 来处理. 4个 tasks 中只有一个 ta...

10/22 23:19
190
0
在浏览器中进行深度学习:TensorFlow.js (八)生成对抗网络 (GAN)

Generative Adversarial Network 是深度学习中非常有趣的一种方法。GAN最早源自Ian Goodfellow的这篇论文。LeCun对GAN给出了极高的评价: “There are many interesting recent development...

10/18 03:05
78
0
Ignite集成Spark之IgniteDataFrames

本系列共两篇文章,主要探讨如何将Ignite和Spark进行集成。 下面简要地回顾一下在第一篇文章中所谈到的内容。 Ignite是一个分布式的内存数据库、缓存和处理平台,为事务型、分析型和流式负载...

10/08 15:38
166
1
hdfs auditlog(审计日志)

hdfs审计日志(Auditlog)记录了用户针对hdfs的所有操作,详细信息包括操作成功与否、用户名称、客户机地址、操作命令、操作的目录等。对于用户的每一个操作,namenode都会将这些信息以key-val...

10/07 10:05
216
0
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

10/05 03:00
1K
3
Uber 业务预测系统实践

Forecasting is ubiquitous 如何利用预测来构建更好的产品和服务 定量预测方法可分为:基于模型(model-based)或因果关系,统计方法(statistical methods)和机器学习方法(machine learn...

10/04 22:17
245
0
Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

1 安装Spark依赖的Scala 1.1下载和解压缩Scala 1.2 配置环境变量 1.3 验证Scala 2下载和解压缩Spark 2.1 下载Spark压缩包 2.2 解压缩Spark 3 Spark相关的配置 3.1 配置环境变量 3.2 配置con...

09/30 20:35
187
0
记Structured Streaming 2.3.1的OOM排查过程

记Structured Streaming 2.3.1的OOM排查过程 缘起 最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM...

09/26 16:39
194
0
轻松扩展你的机器学习能力 : Kubeflow

提起机器学习,尤其是深度学习,大家可能会对诸如Tensorflow,Pytorch,Caffee的工具耳熟能详。但其实在实际的机器学习的生命周期中,训练模型(上述工具主要解决的问题)只是整个机器学习生...

09/17 02:40
804
0
Uber Hadoop 文件系统最佳实践

原文:April 5, 2018 Scaling Uber’s Apache Hadoop Distributed File System for Growth How Uber implemented these improvements to facilitate the continued growth, stability, and r...

09/16 09:59
379
0

没有更多内容

加载失败,请刷新页面

单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

【背景介绍】 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使...

11/20 09:42
5.9K
16
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

10/05 03:00
1K
3
利用TICK搭建Docker容器可视化监控中心

概述 性能监控是容器服务必不可少的基础设施,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息。在我的前文《Doc...

07/05 07:08
2.5K
2
玩转 Elasticsearch 的 SQL 功能

最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修...

06/28 09:25
4.7K
9
在浏览器中进行深度学习:TensorFlow.js (六)构建一个卷积网络 Convolutional Network

在上一篇中,我们介绍了了用TensorflowJS构建一个神经网络,然后用该模型来进行手写MINST数据的识别。和之前的基本模型比起来,模型的准确率上升的似乎不是很大。(在我的例子中,验证部分比...

05/15 07:02
1K
4
Docker容器可视化监控中心搭建

概述 一个宿主机上可以运行多个容器化应用,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息,而且这些信息随时间...

04/17 07:16
3.6K
5
Apache Ignite事务架构:Ignite持久化的事务处理

在本系列[上一篇文章](https://my.oschina.net/liyuj/blog/1791800)中,介绍了故障和恢复,下面是本系列剩下的文章将要讨论的主题: - Ignite持久化的事务处理(WAL、检查点及其他) - 第三方...

04/11 14:12
1K
3
一个利用Tensorflow求解几何问题的例子

知乎上有一个问题,内容是已知空间三个点的坐标,求三个点所构成的圆的圆心坐标(编程实现)? 根据圆的定义,这道题的核心就是找到一个点,到已知的三个点的距离相等,利用数学知识可以求解...

03/02 09:44
4.2K
6
Apache Ignite事务架构:并发模型和隔离级别

在本系列的第一篇文章中我们研究了2阶段提交协议,在本文中,我们会聚焦并发模型和隔离级别。

03/01 16:58
1K
0
大数据平台Hadoop的分布式集群环境搭建

1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNod...

02/10 13:53
2.2K
6
SQL优化-第二章-从解释计划层面让SQL飞

# 前言 在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解释计划就是这样的一把...

2017/12/31 22:47
2.4K
8
深度学习之视频摘要发展综述

现如今城市生活节奏越来越快,用户在浏览一些视频时,并不想花费大量的时间来看一个完整的视频。更多时候,用户只想知道这个视频最精华的信息,也是基于这种需求,谷阿莫等影视评论者才得到如...

2017/12/11 11:10
1K
2
分布式实时日志分析解决方案ELK部署架构

一、概述 ELK 已经成为目前最流行的集中式日志解决方案,它主要是由Beats、Logstash、Elasticsearch、Kibana等组件组成,来共同完成实时日志的收集,存储,展示等一站式的解决方案。本文将会...

2017/11/27 22:19
6.8K
6
用Python实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。 布隆...

2017/11/24 10:49
3.6K
5
深度思考Spark Runtime机制

序言 在以往的博客一天一个函数系列中,我们集中精力攻克了一座又一座的spark中那些晦涩的语法,收获了不少知识。如果以战喻,那就是我们的游击战取得了局部的显著效果。但是要想撼动整个spa...

2017/10/06 18:23
893
2
你想了解的Hive Query生命周期--钩子函数篇!

一个Hive SQL语句的执行需要经历哪些阶段? 在这些阶段中,我们可以做哪些事来影响它? Hive为我们提供了很多的钩子函数,我们可以怎样利用它为Hive实现扩展?

2017/08/18 20:19
1K
2
【干货】Apache Hive 2.1.1 安装配置超详细过程,配置hive、beeline、hwi、HCatalog、WebHCat等组件

在Docker环境成功搭建了Apache Hadoop 2.8 分布式集群,并实现了NameNode HA、ResourceManager HA之后(详见我的另一篇博文:Apache Hadoop 2.8分布式集群详细搭建过程),接下来将搭建最新稳...

2017/06/28 13:02
3K
2
【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程,实现NameNode HA、ResourceManager HA高可靠性

最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode、ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作。详细的搭建过程如下...

2017/06/20 16:54
6.1K
6
Nginx+Keepalived(双机热备)搭建高可用负载均衡环境(HA)

Nginx+Keepalived搭建高可用负载均衡环境(HA) http://blog.csdn.net/xyang81/article/details/52554398可以看更多介绍 Keepalived的介绍可以百度一堆一堆的资料。一定要看看哦。 1.基于上一篇...

2017/06/08 14:24
7.7K
6

没有更多内容

加载失败,请刷新页面

Structured Streaming教程(3) —— 与Kafka的集成

Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本。就在前一个月,我们才从0.9升级到...

昨天 15:40
4
0
Bitcask A Log-Structured Hash Table for Fast Key/Value Data

http://basho.com/wp-content/uploads/2015/05/bitcask-intro.pdf 作为NOSQL门外汉,这个文章真实通俗易懂的介绍了一个基于日志结构的Key-Value的数据库。 优点是对于大部分系统,刚刚好用,...

昨天 10:13
4
0
大数据教程(9.4)用java -jar的方式运行mr程序

上一篇博客分享了mapreduce在yarn上的运行流程,本篇博主将分享 1.如何使用:jar -jar的方式运行mr程序、2.如何在本地提交mapreduce程序到集群上去运行; 一、使用:jar -jar的方式运行mr程序(...

前天 23:30
2
0
Structured Streaming教程(2) —— 常用输入与输出

上篇了解了一些基本的Structured Streaming的概念,知道了Structured Streaming其实是一个无下界的无限递增的DataFrame。基于这个DataFrame,我们可以做一些基本的select、map、filter操作,...

前天 21:56
9
0
Mysql 流增量写入 Hdfs(一) --从 mysql 到 kafka

一. 概述 在大数据的静态数据处理中,目前普遍采用的是用 Spark + Hdfs (Hive / Hbase) 的技术架构来对数据进行处理。 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后...

前天 21:16
7
0
大数据教程(9.3)MR运行在yarn集群流程分析&&本地模式调试MR程序_

mapreduce在yarn集群中流程分析: 在windows本地环境的调试需要先安装好windows环境,具体请看windows安装篇; 最后寄语,以上是博主本次文章的全部内容,如果大家觉得博主的文章还不错,请点...

前天 20:37
5
0
八年技术加持,性能提升10倍,阿里云HBase 2.0首发商用

摘要: 早在2010年开始,阿里巴巴集团开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储,HBase在几代阿里专家的不懈努力下,已经表现得运行更稳定、性...

12/07 16:55
1
0
Spark_Streaming源码解析之概览

sparkStreaming源码思维脑图: 脑图详解: 此博文共分为四个部分: DAG定义 Job动态生成 数据的产生与导入 容错 脑图制作参考

12/07 16:50
4
0
详解如何pyhton批量采集拉勾网java招聘信息数据

大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理...

12/07 16:35
5
0
学界 | 不!机器学习才不只是统计学的美化!

题图上这张在社交媒体上疯狂传播的恶搞漫画博得了不少转发,这似乎暗示着,对机器学习的炒作热度开始消退。然而,机器学习真的只是被美化的统计学吗? 哈佛大学数据科学硕士、机器学习从业者...

12/07 15:10
0
0
DKhadoop环境安装配置步骤详解

在上一篇的分享文章中我是给大家分享了运行部署hadoop的一些安装准备工作,这篇接上一篇继续为大家分享一些个人的学习经验总结。我学习用的是大快发行版DKHadoop,所以所有的经验分享都是以D...

12/07 13:30
3
0
Spark——Streaming源码解析之数据的产生与导入

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

12/07 11:55
6
0
Spark——Streaming源码解析之容错

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

12/07 11:54
0
0
Spark——Streaming源码解析之Job动态生成

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

12/07 11:51
0
0
Spark——Streaming源码解析之DAG定义

此文是从思维导图中导出稍作调整后生成的,思维脑图对代码浏览支持不是很好,为了更好阅读体验,文中涉及到的源码都是删除掉不必要的代码后的伪代码,如需获取更好阅读体验可下载脑图配合阅读...

12/07 11:49
0
0
Structured Streaming教程(1) —— 基本概念与使用

近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured St...

12/07 11:28
4
0
金奖!送给有情怀,有技术的他们!

摘要: 原来———— 做志愿者是会上瘾的。 有这么一群人,穿梭于大大小小的志愿活动,在不经意间,让志愿的理念深植于心中。 而在这群人中,有着一群以技术流著称的极客,他们正用着自己的方...

12/07 10:54
1
0
Spark SQL,如何将 DataFrame 转为 json 格式

今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。 用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据...

12/06 20:10
5
0
揭秘阿里云EB级大数据计算引擎MaxCompute

日前,全球权威咨询与服务机构Forrester发布了《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》报告。这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称C...

12/06 16:45
1
0
揭秘阿里云EB级大数据计算引擎MaxCompute

日前,全球权威咨询与服务机构Forrester发布了《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》报告。这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称C...

12/06 16:03
1
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部