精彩博客

Ignite集成Spark之IgniteDataFrames

本系列共两篇文章,主要探讨如何将Ignite和Spark进行集成。 下面简要地回顾一下在第一篇文章中所谈到的内容。 Ignite是一个分布式的内存数据库、缓存和处理平台,为事务型、分析型和流式负载...

10/08 15:38
122
1
hdfs auditlog(审计日志)

hdfs审计日志(Auditlog)记录了用户针对hdfs的所有操作,详细信息包括操作成功与否、用户名称、客户机地址、操作命令、操作的目录等。对于用户的每一个操作,namenode都会将这些信息以key-val...

10/07 10:05
69
0
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

10/05 03:00
1K
2
Uber 业务预测系统实践

Forecasting is ubiquitous 如何利用预测来构建更好的产品和服务 定量预测方法可分为:基于模型(model-based)或因果关系,统计方法(statistical methods)和机器学习方法(machine learn...

10/04 22:17
198
0
Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

1 安装Spark依赖的Scala 1.1下载和解压缩Scala 1.2 配置环境变量 1.3 验证Scala 2下载和解压缩Spark 2.1 下载Spark压缩包 2.2 解压缩Spark 3 Spark相关的配置 3.1 配置环境变量 3.2 配置con...

09/30 20:35
117
0
记Structured Streaming 2.3.1的OOM排查过程

记Structured Streaming 2.3.1的OOM排查过程 缘起 最近在使用Structured Streaming开发一套自助配置SQL的来生成流式作业的平台,在测试的过程中发现有些作业长时间运行后会有Executor端的OOM...

09/26 16:39
148
0
轻松扩展你的机器学习能力 : Kubeflow

提起机器学习,尤其是深度学习,大家可能会对诸如Tensorflow,Pytorch,Caffee的工具耳熟能详。但其实在实际的机器学习的生命周期中,训练模型(上述工具主要解决的问题)只是整个机器学习生...

09/17 02:40
102
0
Uber Hadoop 文件系统最佳实践

原文:April 5, 2018 Scaling Uber’s Apache Hadoop Distributed File System for Growth How Uber implemented these improvements to facilitate the continued growth, stability, and r...

09/16 09:59
346
0
Ignite集成Spark之IgniteRDD

本系列共两篇文章,会探讨如何将Ignite和Spark进行集成。 Ignite是一个分布式的内存数据库、缓存和处理平台,为事务型、分析型和流式负载而设计,在保证扩展性的前提下提供了内存级的性能。 ...

09/13 23:45
232
1
全面对比,深度解析 Ignite 与 Spark

经常有人拿 Ignite 和 Spark 进行比较,然后搞不清两者的区别和联系。Ignite 和 Spark,如果笼统归类,都可以归于内存计算平台,然而两者功能上虽然有交集,并且 Ignite 也会对 Spark 进行支...

09/13 15:53
1K
5
zeppelin 配置 spark

修改zeppelin 配置文件 在zeppelin-env.sh中添加spark路径和hadoop配置文件路径 export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR=/usr/lib/hadoop 修改spark interpreter参数 mast...

09/11 10:56
119
0
在浏览器中进行深度学习:TensorFlow.js (七)递归神经网络 (RNN)

介绍 上一篇博客我们讨论了CNN,卷积神经网络。CNN广泛应用于图像相关的深度学习场景中。然而CNN也有一些限制: 很难应用于序列数据 输入数据和输出数据都是固定长度 不理解上下文 这些问题就...

09/09 12:59
391
0
spark--当分组遇到排序的解决思路

场景 现在有如下数据格式 图书分类,图书名,数量 现在想统计全部分类中数量最多的书名以及数量 场景解析 如果不基于spark,我们来思考这个问题,数据量大内存是放不下,分类也不确定有多少类...

09/04 21:25
251
0
hbase查询解析

hbase查找流程图 流程说明 从zk获取meta地址 客户端查询一个数据,先根据zookeeper获取meta表所在的region信息,meta表里存着region的各种信息,但是他也是在region里的,会被一个regionser...

08/31 21:05
102
0
Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程,这个过程会把所有的数据进行洗牌整理,排序,如果数据量大,将会非常的耗时。如图1.1所示,是一个从map端输出数据到合并成一个文件的过程。 图1.1 M...

08/28 20:01
245
0
Hadoop - 企业级大数据管理平台CDH(安装Hadoop组件)

当我们已经把cm-service和cm-agent安装完成之后,接下来我们就要到最重要的部分了,安装Hadoop组件 附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: h...

08/23 09:30
343
1
Sqoop问题之数据超长

Sqoop问题之数据超长 问题描述 今天使用Sqoop将数据从HDFS导出到MySQL的时候,报出了如下错误: 2018-08-22 14:49:36,857 INFO [IPC Server handler 1 on 35135] org.apache.hadoop.mapred....

08/22 18:33
139
0
Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)

哈喽大家好呀,仅经过了一段时间大数据相关的博文又和大家见面了,笔者之前有写过一套Hadoop大数据相关的博客,为什么今天又要开坑呢?当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很...

08/13 09:13
493
1
Centos7下的Ambari安装

适合系统:RedHat 7 CentOS 7 Oracle Linux 7 Ambari 2.4.2.0 HDP-2.5.3.0 HDP-UTILS 1.1.0.21 Repo下载地址和base url Ambari 2.4.2.0 Base url:http://public-repo-1.hortonworks.com/amb...

08/11 11:06
228
1
Hive应用:设置字段默认值

Hive应用:设置字段默认值 介绍 有以下场景需要我们给字段添加默认值。 当我们清理了一些数据之后,数据的某些字段在数据中是没有的但是需要保留这个字段,那么我们将数据插入中转表中时,就...

08/11 10:36
375
0

没有更多内容

加载失败,请刷新页面

如何让 J2Cache 在多种编程语言环境中使用

现在的系统是越来越复杂了,不仅仅是功能复杂,系统结构也非常复杂,而且经常在一个系统里包含几种不同语言编写的子系统。例如用 JavaScript 做前端开发、用 Java/PHP 等等做后端,C/C++/Go ...

昨天 09:04
968
2
劲爆︱开源众包和公安行业强强联手,推出系列好项目。

公安行业的项目第一期出来了。要求可能有点高。但是稳定,优质,更有场面!

众包广告

为什么前后端分离了,你比从前更痛苦?

你有没有遇到过: 前端代码刚写完,后端的接口又变了。 接口文档永远都是不对的。 测试工作永远只能临近上线才能开始。 为什么前后端分离了,你比从前更痛苦?   前后端分离早已经不是新闻...

前天 09:01
7.3K
14
Node.js股票模拟交易后台

我曾经花了一周时间开发了一个股票模拟交易后台程序,使用Node.js。代码量很少,能完成基本功能。下面给大家介绍一下其实现步骤。 基本功能 开户 搜索股票 挂单(多单、空单) 撤单(主动、被...

10/13 22:37
1K
3
前端安全系列之二:如何防止CSRF攻击?

背景 随着互联网的高速发展,信息安全问题已经成为企业最为关注的焦点之一,而前端又是引发企业安全问题的高危据点。在移动互联网时代,前端人员除了传统的 XSS、CSRF 等安全问题之外,又时常...

10/12 10:43
3K
25
从源码分析如何优雅的使用 Kafka 生产者

前言 在上文 设计一个百万级的消息推送系统 中提到消息流转采用的是 Kafka 作为中间件。 其中有朋友咨询在大量消息的情况下 Kakfa 是如何保证消息的高效及一致性呢? 正好以这个问题结合 Ka...

10/11 08:13
1K
4
Go 内存管理

1. 前言 编写过C语言程序的肯定知道通过malloc()方法动态申请内存,其中内存分配器使用的是glibc提供的ptmalloc2。 除了glibc,业界比较出名的内存分配器有Google的tcmalloc和Facebook的jem...

10/09 16:55
1K
14
关于MySQL 通用查询日志和慢查询日志分析

MySQL中的日志包括:错误日志、二进制日志、通用查询日志、慢查询日志等等。这里主要介绍下比较常用的两个功能:通用查询日志和慢查询日志。 1)通用查询日志:记录建立的客户端连接和执行的...

10/09 14:36
2.7K
5
使用golang写一个redis-cli

使用golang写一个redis-cli 0. redis通信协议 redis的客户端(redis-cli)和服务端(redis-server)的通信是建立在tcp连接之上, 两者之间数据传输的编码解码方式就是所谓的redis通信协议。所以,...

10/08 19:23
2.8K
7
揭密 Vue 的双向绑定

Vue 中需要输入什么内容的时候,自然会想到使用 的方式来实现双向绑定。下面是一个最简单的示例 What's your name:

10/05 11:31
2.2K
5
谈谈机器学习模型的部署

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

10/05 03:00
1K
2
iOS 的组件化开发

在一个APP开发过程中,如果项目较小且团队人数较少,使用最基本的MVC、MVVM开发就已经足够了,因为维护成本比较低。 但是当一个项目开发团队人数较多时,因为每个人都会负责相应组件的开发,...

10/03 22:59
543
0
jvm误区--动态对象年龄判定

虚拟机并不是永远地要求对象的年龄必须达到了MaxTenuringThreshold才能晋升老年代,如果在Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半,年龄大于或等于该年龄的对象就可...

09/29 20:01
974
1
为什么我们做分布式使用Redis?

绝大部分写业务的程序员,在实际开发中使用 Redis 的时候,只会 Set Value 和 Get Value 两个操作,对 Redis 整体缺乏一个认知。这里对 Redis 常见问题做一个总结,解决大家的知识盲点。 1、...

09/29 16:03
7.1K
21
似懂非懂 Comparable和 Comparator

在java中提供了两种排序方式:Comparable和 Comparator,它们两个看起来非常的相似,在不是很了解的情况下不知道如何使用,什么情况下使用哪个进行排序,接下来就看下它们的一个区别和使用方...

09/29 10:51
1K
3
快速了解 Git Git仓库

一、Git介绍 (1)Git是一个开源(Linus Torvalds 为了帮助管理 Linux 内核开发而开发)的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目,与常用的版本控制工具 CVS, SVN等不同...

09/28 15:38
1K
4
SpringBoot | 第二十九章:Dubbo的集成和使用

前言 今年年初时,阿里巴巴开源的高性能服务框架dubbo又开始了新一轮的更新,还加入了Apache孵化器。原先项目使用了spring cloud之后,已经比较少用dubbo。目前又抽调回原来的行业应用部门,...

09/28 09:39
2.2K
5
聊聊 Go Socket 框架 Teleport 的设计思路

项目源码 teleport:https://github.com/henrylee2cn/teleport 背景 大家在进行业务开发时,是否是否遇到过下列问题,并且无法在Go语言开源生态中找到一套完整的解决方案? 高性能、可靠地通...

09/27 10:05
1K
3
微服务写的最全的一篇文章

今年有人提出了2018年微服务将疯狂至死,可见微服务的争论从未停止过。在这我将自己对微服务的理解整理了一下,希望对大家有所帮助。 1.什么是微服务 1)一组小的服务(大小没有特别的标准,...

09/26 22:46
4.1K
34
EventBus原理深度解析

一、问题描述 在工作中,经常会遇见使用异步的方式来发送事件,或者触发另外一个动作:经常用到的框架是MQ(分布式方式通知)。如果是同一个jvm里面通知的话,就可以使用EventBus。由于Event...

09/26 01:29
2.9K
10
设计一个百万级的消息推送系统

前言 首先迟到的祝大家中秋快乐。 最近一周多没有更新了。其实我一直想憋一个大招,分享一些大家感兴趣的干货。 鉴于最近我个人的工作内容,于是利用这三天小长假憋了一个出来(其实是玩了两...

09/25 08:30
5.1K
13

没有更多内容

加载失败,请刷新页面

Hive 分布式搭建,Spark集成Hive记录

本帖详细介绍搭建步骤,仅仅记录自己搭建过程以及采坑经历。 前提环境: Hadoop集群 版本2.7.2 Spark集群 版本2.1.0 Linux版本 Centos7 准备搭建 MySql版本5.5.61 ,Hive-2.1.0 去官网下载M...

今天 13:13
4
0
记一次hbase master停止服务的原因以及恢复

在Hdfs空间不足的情况下,拒绝写入,hbase会down掉。如果hdfs空间没有清理的情况下,重新启动hbase,会报splitlog失败,原因是wal日志重写过程中会写hdfs,写不进去导致的。重启不成功。 解决...

今天 11:50
2
0
集体通宵发版怎么破?阿里敏捷教练开出四道“药方”

导语 某研发团队处在事多、效果差的漩涡之中。在这样的背景下,阿里云效敏捷教练团队受邀,和该研发团队一起,通过4个迭代的持续改进,研发效率和质量取得了显著提升: ● 大幅缩短了需求开发...

今天 10:44
0
0
在浏览器中进行深度学习:TensorFlow.js (八)生成对抗网络 (GAN)

Generative Adversarial Network 是深度学习中非常有趣的一种方法。GAN最早源自Ian Goodfellow的这篇论文。LeCun对GAN给出了极高的评价: “There are many interesting recent development...

今天 03:05
5
0
hive优化

1. 查看sql执行计划 explain [extended] sql explain : 只解析sql成计划 explain extended:除咯有计划,还有抽象语义树。 e.g hive (yul)> explain select * from dept; OK STAGE DEPENDENC...

昨天 21:24
6
0
hive的执行属性配置

默认配置 配置hive-site.xml 通过命令行参数 hive的cli来设置 注意: 属性的优先级别3->2->->0 通过hive来配置属于临时性的,只针对当前session有效。 hive的有一些配置必须要hive-site.xml...

昨天 20:22
0
0
[Hive]JsonSerde使用指南

注意: 重要的是每行必须是一个完整的JSON,一个JSON不能跨越多行,也就是说,serde不会对多行的Json有效。 因为这是由Hadoop处理文件的工作方式决定,文件必须是可拆分的,例如,Hadoop将在...

昨天 19:11
3
0
CDH的坑之Deploy Client Configuration Failed

Deploy Client Configuration Failed 1.问题描述 当使用CDH增添spark服务的时候,出现了以下错误: Faile to deploy client configuration to the cluster. 具体如下图: 2.思路 网上查了以...

昨天 17:41
4
0
大数据之MySql笔记-0916

复习: 1.MySQL部署 拓展题: rm -rf $MYSQL_HOME/arch/* binlog日志 恢复 主从同步 rm -rf $MYSQL_HOME/data/* 数据 $MYSQL_HOME/scripts/mysql_install_db \ --user=mysqladmin \ --basedir...

昨天 10:06
4
0
大数据之Linux早课9.11

1.临时获取root权限是修改哪个配置文件?添加一行什么? 命令是什么? 2.sudo和su能不能一起使用? 3.安装RPM包命令什么 4.卸载RPM包命令哪两个? 5.查看命令帮助 是什么? 怎样看 6.查看进程xxx的...

昨天 10:06
0
0
大数据之Linux早课9.12

1.切换用户和临时获取root用户最大权限的命令分别是什么 2.想要用sudo命令,我们需要配置无密码的临时root最大权限,修改哪个文件,添加一行什么语句? 3.su - user1,这个短横杠代表什么 4....

昨天 10:05
0
0
大数据之Linux早课10.09

1.级联创建文件夹的命令参数 2.创建文件 你们认为有哪几种方法 3.重命名一般用哪个命令 4.说说大R参数的命令有哪些 5.说说小r参数的命令有哪些 6.查看历史命令是什么,执行第66行命令 7.hist...

昨天 10:05
0
0
大数据之Linux早课10.12

1.pwd是什么意思 2.当我们输入一个命令,提示 not found,请问你该怎么办 3.环境变量一般配置全局和个人,请问分别在哪,怎样生效 4.rm 删除文件或文件夹,我们第一步应该做什么 5.kill 进程...

昨天 10:04
0
0
大数据之hadoop早课10.15

1.1.谈谈如何理解shuffle 2.简述 mr提交到yarn的工作流程 3.yarn哪两个进程 4.yarn的资源调优参数,是否会配置? 5.谈谈你对jps命令 pid生成在哪个目录 6.谈谈你们对pid的理解 7.hdfs读流程是...

昨天 10:04
0
0
大数据之Linux早课10.16

1.历史命令是什么?执行第66行 2.敲错了命令,干了坏事,我们应该怎么办 3.删除文件夹 命令参数 4.创建及联文件夹 5.创建文件 6.vi哪三种模式 7.vi清空一个文件的命令 8.mv和cp什么区别 9.软连...

昨天 10:03
0
0
大数据早课10.10

1.MySQL部署过程的配置文件默认在哪 2.赋予权限,%代表什么 3.创建DB的SQL是什么? 4.想想,创建一个用户xxx,对xxxdb有所有权限访问且密码123456,这个SQL会不会写 5.赋予权限完,我们最后一...

昨天 10:02
0
0
大数据之hadoop早课10.11

1.jps命令是来自哪里的 2.jps 发现不可用信息,我们应该怎么办 3.pid文件默认存储哪里?哪个文件修改 4.pid文件人为或Linux系统自动清理,那么会影响服务的正常运行吗? 那么又影响什么呢 5....

昨天 10:01
1
0
大数据之Linux早课9.27

1.jps是哪个软件里的 2.jps显示 进程信息不可用,我们该怎么办 3.在部署yarn的伪分布式部署,我们用了哪两个参数文件? 4.启动yarn的shell脚本叫什么 5.yarn的web界面的默认端口是什么 6. ssh...

昨天 10:01
0
0
大数据之Linux早课9.26

1.排序语法 默认是降序吗 2.限制多少行语法 3.分组函数有哪些 4.分组语法,谈谈你们的理解有哪些 5.left join谈谈你们的理解 6.(拓展题)高级的高级的SQL那个文件做了没? 7.谈谈对子表的理解...

昨天 10:00
0
0
大数据之Linux早课9.25

1.查看当前目录的命令 2.隐藏文件什么标识开头,什么命令查看 3.创建一个文件有哪些命令 4.创建一个级联文件夹的命令 5.mv和cp区别是什么 6.第5题的命令可不可以用来修改名称 7.cp文件夹,需...

昨天 10:00
0
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部