精彩博客

Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)

哈喽大家好呀,仅经过了一段时间大数据相关的博文又和大家见面了,笔者之前有写过一套Hadoop大数据相关的博客,为什么今天又要开坑呢?当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很...

08/13 09:13
302
0
Centos7下的Ambari安装

适合系统:RedHat 7 CentOS 7 Oracle Linux 7 Ambari 2.4.2.0 HDP-2.5.3.0 HDP-UTILS 1.1.0.21 Repo下载地址和base url Ambari 2.4.2.0 Base url:http://public-repo-1.hortonworks.com/amb...

08/11 11:06
202
0
Hive应用:设置字段默认值

Hive应用:设置字段默认值 介绍 有以下场景需要我们给字段添加默认值。 当我们清理了一些数据之后,数据的某些字段在数据中是没有的但是需要保留这个字段,那么我们将数据插入中转表中时,就...

08/11 10:36
125
0
ElasticSearch排序引起的all shards failed异常原因分析

背景 注:ElasticSearch版本为5.4。 在我们的日志系统里需要一些系统索引,这些系统索引在应用初始化的时候就会被添加到ElasticSearch中去,这些在ElasticSearch中的系统索引在没有索引数据的...

08/10 23:29
128
0
Centos7离线安装Cloudera Manager 5.14.1

简介 如果是新手,请严格按照步骤来做。当然还有其他安装方式,这里讲的方式比较适合测试使用。 内容 版本 CentOS 7 64位 JDK 1.7 Cloudera Manager 5.14.1 本次安装一共使用3台服务器,主要...

08/10 10:50
358
1
spark dataframe 全局排名优化

spark提供给我们的全局排序,默认情况下只有spark-sql提供的窗口函数,但如果窗口是整个表eg:row_number() over(order by a) 会存在严重的数据倾斜,下面我们演示了俩种方式,例2是例1的改进...

08/08 23:45
85
0
基于.net core 开源分布式爬虫 Ruiji.Net 教程(Linux部署)

RuiJi.Net是一个开源的分布式的网络爬虫框架,他有三种运行模式,分别为本地模式,伪分布模式,全分布模式。因为此款框架是基于.net core开发的,可以支持跨平台Linux系统运行。因为本人接触...

08/07 13:52
154
2
hive极致优化(一)-打开解释计划

/数据仓库/hive-极致优化-解释计划1 1. 读懂解释计划 hivesql的运行同关系型数据库一样遵循一个逻辑。解释计划就是用来描述这个逻辑。读懂解释计划, 就能够知道,程序运行的前世今生。能够很...

07/31 17:17
311
2
Centos7安装greenplum遇到的问题

Centos7安装greenplum遇到的问题 问题1:gpcheck的时候xfs文件系统报错 20180725:09:02:10:002498 gpcheck:bigdata-3-22:hahahahah-[INFO]:-dedupe hostnames 20180725:09:02:10:002498 gpch...

07/26 12:31
320
0
spark 自定义partitioner分区 java版

在遍历spark dataset的时候,通常会使用 forpartition 在每个分区内进行遍历,而在默认分区(由生成dataset时的分区决定)可能因数据分布原因导致datasetc处理时的数据倾斜,造成整个dataset...

07/26 11:25
258
0
CDH的坑之Sqoop导出数据到MySQL

CDH的坑之Sqoop导出数据到MySQL 最近使用Sqoop从Hive导出数据到MySQL中,出现了一系列的问题,下面将这个问题记录一下,避免再度踩坑! 导出语句 sqoop export --connect jdbc:mysql://192....

07/23 16:03
299
0
Hive应用:外部分区表

Hive应用:外部分区表 介绍 Hive可以创建外部分区表。创建表的时候,分区要在建表语句中体现。建完之后,你不会在表中看到数据,需要进行分区添加,使用alter语句进行添加。然后数据才会显示...

07/21 09:29
373
0
机器学习管理平台 MLFlow

最近工作很忙,博客一直都没有更新。抽时间给大家介绍一下Databrick开源的机器学习管理平台-MLFlow。 谈起Databrick,相信即使是不熟悉机器学习和大数据的工程湿们也都有所了解,它由Spark的...

07/21 05:11
553
0
Kylin设置JDBC配置greenplum数据源

Kylin设置JDBC配置greenplum数据源 kylin最开始的时候支持hive和kafka作为数据源,从2.3.0版本之后开始支持JDBC作为第第三种数据源。用户可以自定义的数据库或者数据仓库到自己的kylin集群。...

07/05 21:05
316
0
Kylin集群部署和cube使用

Kylin集群部署和cube使用 安装集群环境 节点 Kylin节点模式 Ip 内存 磁盘 Node1 All 192.167.71.11 2G 80G Node2 query 192.168.71.12 1.5G 80G Node3 query 192.168.71.13 1.5G 80G Kylin工...

07/05 11:05
412
1
利用TICK搭建Docker容器可视化监控中心

概述 性能监控是容器服务必不可少的基础设施,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息。在我的前文《Doc...

07/05 07:08
2.4K
2
Spark DateType cast 踩坑

前言 在平时的 Spark 处理中常常会有把一个如 2012-12-12 这样的 date 类型转换成一个 long 的 Unix time 然后进行计算的需求.下面是一段示例代码: val schema = StructType( Array( StructF...

07/04 11:35
116
0
玩转 Elasticsearch 的 SQL 功能

最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修...

06/28 09:25
3.6K
7
解读MapReduce程序实例

Mapreduce 是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的 分布式运算程序,并发运行在一个 hadoop 集群上。MapReduce采用“分而治之”...

06/27 17:47
396
0
基于Hadoop集群的Hive安装配置(Derby数据库)

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据,提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行(具体的Hive架构大家自行搜索)。接下来主要讲下Hadoop集群下...

06/21 15:35
184
0

没有更多内容

加载失败,请刷新页面

下一页

记录一次惊心动魄的ICP备案撤销后应急处理过程

因为物理服务器维护成本高,托管机房(具体名字就不说啦,X联X通)经常间歇性断电、烧交换机、施工挖断主线缆,恢复时间半天起,对公司业务造成N+1次伤害;售后态度也很差,忍无可忍之际,将...

08/09 01:58
2.6K
5
【入门篇】 -- 在Linux下发布dotnet core 应用 (完整版)

目标:在Linux下发布asp.net core应用。 工具:Linux(服务器)+Docker(容器)+Gitee(代码托管)+DaoCloud(管理平台) 管理平台:DaoCloud 代码托管平台:GITEE(码云) 步骤一:申请一台免...

07/11 11:16
2.1K
14
Ansible 极简教程

## 一、基本部署 ### 安装Ansible ``` # yum -y install epel-release # yum list all *ansible* # yum info ansible # yum -y install ansible ``` ### Ansible配置文件 ``` /etc/ansible/a...

06/14 12:41
1K
6
深度解析Tengine的调试与资源监控方法论

摘要: 在最近的飞天技术汇CDN Tengine开源技术沙龙上,阿里云CDN团队的高级开发工程师墨飏进行了《Tengine的调试与资源监控》的主题分享。本文为演讲记录,从Tengine的内存调试、核心结构、u...

05/31 15:07
3K
2
Linux配置开机自启动执行脚本的两种方法

开机要启动的脚本qidong.sh [root@c69-01 scripts]# vim /server/scripts/qidong.sh [root@c69-01 scripts]# cat /server/scripts/qidong.sh #!/bin/bash /bin/echo $(/bin/date +%F_%T) >>...

02/20 11:21
2.6K
5
使用Heapster和Splunk监控Kubernetes运行性能

Kubernetes已经成为容器编排的事实上的王者,连Docker都已经向K8s女王大人低头。对于Kubernetes的cluster的数据收集和监控已经成为IT运维的一个重要话题。我们今天来看一看如何利用Splunk最新...

01/18 02:40
1K
1
HTTPS连接过程以及中间人攻击劫持

一 、HTTPS连接过程及中间人攻击原理 https协议就是http+ssl协议,如下图所示为其连接过程: 1.https请求 客户端向服务端发送https请求; 2.生成公钥和私钥 服务端收到请求之后,生成公钥和私...

2017/12/03 21:43
3.1K
10
理解TCP/IP三次握手与四次挥手的正确姿势

背景 和女朋友异地恋一年多,为了保持感情我提议每天晚上视频聊天一次。 从好上开始,到现在,一年多也算坚持下来了。 问题 有时候聊天的过程中,我的网络或者她的网络可能会不好,视频就会卡...

2017/11/28 15:50
3.7K
12
如何7步实现根据源码包创建rpm包

### 如何7步实现根据源码包创建rpm包 --- > 本文是"[7 Steps to Build a RPM Package from Source on CentOS / RedHat](http://www.thegeekstuff.com/2015/02/rpm-build-package-example/)"...

2017/11/19 21:41
1K
2
lvm讲解、磁盘故障小案例

### lvm讲解 ``` DiskA 分区分别为Physical Volume1、Physical Volume2;DiskB 分区为Physical Volume3,在这里Physical volume1,2,3就是磁盘分区 也就是物理卷;然后由单个或多个物理卷组成物...

2017/11/06 20:22
1K
2
nginx之proxy_pass指令完全拆解

nginx中有两个模块存在proxy_pass指令。proxy_pass后的后端服务器的uri到底是个啥?

2017/08/17 18:04
6.8K
12
工作中redis合库以及aof踩坑记

概述 此文是第一次搞redis主从小白犯的错,大神可以忽略。记录为了让看到本博文的小白前车之鉴 软件资源 centOs:6.5 redis:2.8.10 背景 公司现有架构均是单机模式,本文仅先介绍redis单机踩...

2017/06/21 18:04
2.7K
3
如何在国内愉快的安装 Kubernetes

无需翻墙,如何愉快的与K8S 玩耍

2017/05/09 11:35
13.6K
5
运维不仅仅是Linux,居然还要知道这么多?

运维不仅仅是懂Linux就行,因为还有一大部分的Windows运维,向windows运维人员致敬。当然我们这篇文章不是说运维除了懂Linux,还要懂Windows,而是涉及运维的其他方方面面。 如:环境部署、排...

2017/04/25 17:33
6.2K
21
简单聊聊: linux 匿名管道

相信很多在linux平台工作的童鞋, 都很熟悉管道符 '|', 通过它, 我们能够很灵活的将几种不同的命令协同起来完成一件任务.就好像下面的命令: echo 123 | awk '{print $0+123}' # 输出246...

2017/03/14 00:37
1K
8
Let's Encrypt 使用教程,免费的SSL证书,让你的网站拥抱 HTTPS

这篇文章主要讲的就是如何让自己的网站免费从HTTP升级为HTTPS,使用的是 [Let's Encrypt](https://letsencrypt.org/)的证书。实际上也就是一个Let's Encrypt 免费证书获取教程 。 为什么要上...

2017/01/23 10:12
6.2K
17
haproxy和nginx负载均衡分析

出于对负载均衡工具的疑问,分别对haproxy和nginx的负载均衡进行了抓包分析,分析的过程跟大家分享下。先说下对haproxy抓包得到的结论吧:haproxy在负载均衡的一台后端挂掉后,如果还没达到探...

2016/12/27 22:13
4.9K
6
Linux Shell 从入门到删除根目录跑路指南

shell 作为一门 linux 下使用广泛的系统语言,语法简单,上手容易,但是想要用好,少犯错误,也不是那么容易的一件事,可谓虽是居家旅行之良药,但也是杀人灭口之利器~ 今天就来聊聊 linux ...

2016/11/24 21:22
11.4K
20
zabbix自动发现监控redis数据库

zabbix自动发现监控redis数据库与自动发现mongo,mysql的思路差不多。这次汇总完就把模板,脚本上传到git上。如果公司使用的redis都是6379端口的话,那么还是建议创建一套模板,然后链接到各...

2016/11/12 12:57
3.4K
3
ELK日志分析平台搭建全过程

一、使用背景 当生产环境有很多服务器、很多业务模块的日志需要每时每刻查看时 二、环境 系统:centos 6.5 JDK:1.8 Elasticsearch-5.0.0 Logstash-5.0.0 kibana-5.0.0 三、安装 1、安装JDK...

2016/11/10 11:45
7.3K
6

没有更多内容

加载失败,请刷新页面

下一页

Flink操作mysql kafka和hbase

主程序 package com.streaming.flink; import java.util.Properties; import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.common.functions.MapFu...

今天 16:39
2
0
学习大数据这三个关键技术是一定要掌握!

大数据时代全面来临,大数据、人工智能等技术引领科技创新潮流,获得国家政策大力支持,前景广阔。学习大数据技术的人自然是络绎不绝, 学习大数据虽然是一个趋势,但也要注意大数据培训课程...

今天 12:39
0
0
Hive笔记

1、概述 1.1 简介 1、Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL语言,来查询存储在HDFS中的结构化数据文件,它把HQL语句的查询转换为MapReduce任务。 2、Hive应用场景: (1)数...

今天 09:16
1
0
Hadoop - 企业级大数据管理平台CDH(安装cloudera-manager)

准备工作已经完成,接下来我们就要正式的开始在我们服务器集群上搭建CDH 附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/...

昨天 23:55
2
0
go语言中操作mysql的方法

需要下载指定的golang的mysql驱动包 > go get github.com/go-sql-driver/mysql 下面的例子: package main; import ( "database/sql" _ "github.com/go-sql-driver/mysql" "fmt" ) ......

前天 18:51
3
0
hive数仓里建立日期维表

生成日期维表和数据当然会想到要用存储过程procedure ,但hive还不支持,所以通用的方法就是在mysql或oracle里生成好在导入hive,或者需要手动集成HPL/SQL –Procedural SQL on hadoop,下为...

前天 11:40
3
0
深度解析大快工业大数据管理平台功能

之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享,有一些朋友留言索要了dkhadoop安装包,不知道有没有去下载安装一探究竟。关于DKHadoop下载安装基本已经讲清楚了,这几天有点空闲把...

前天 11:14
1
0
使用Let's Encrypt实现Kubernetes Ingress自动化HTTPS

这里探讨使用Let's Encrypt实现Kubernetes Ingress中自动创建、管理和部署证书,实现HTTPS支持。 编译来源,https://akomljen.com/get-automatic-https-with-lets-encrypt-and-kubernetes-i...

08/16 22:17
8
0
HTTPS is easy

HTTPS is easy https://www.troyhunt.com/https-is-easy/ HTTPS is easy! In fact, it's so easy I decided to create 4 short videos around 5 minutes each to show people how to enable ...

08/16 22:13
4
0
[雪峰磁针石博客]数据分析工具pandas快速入门教程1-开胃菜

简介 Pandas是用于数据分析的开源Python库,也是目前数据分析最重要的开源库。它能够处理类似电子表格的数据,用于快速数据加载,操作,对齐,合并等。为Python提供这些增强功能,Pandas的数据...

powerBi odbc 连接impala 实现自助分析

配置Impala以使用ODBC 可以将第三方产品设计为使用ODBC与Impala集成。为获得最佳体验,请确保支持您打算使用的任何第三方产品。验证支持包括检查Impala,ODBC,操作系统和第三方产品的版本是...

08/16 19:42
0
0
云技术、大数据(hadoop)入门常见问题回答

当我们学习一门新技术的时候,我们总是产生各种各样的问题,这些问题整理出来,包括该 1.如何学习hadoop? 2.hadoop常见问题? 3.还有hbase、hive安装使用等? 你知道搭建hadoop平台需要些什...

08/16 18:00
4
0
CDH5.15安装

CDH5.15安装指南 1.集群规划 CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可...

08/16 15:49
3
0
cdh 卸载

CDH5.15卸载指南 在删除CDH前,注意要备份好数据。先备份或转移集群中的重要数据,在进行集群的卸载。像一些重要的用户数据,默认的存储路径是在/var/lib/下面,一些组件如HDFS/Impala/Kudu的...

08/16 15:46
0
0
logstash安装及简单测试

背景 业务目的是能够分析nginx和apache每天产生的日志,对url、ip、rest接口等信息进行监控,并将数据发送到elasticsearch服务。 对比flume 不重复消费,数据不丢失 目前flume支持hdfs比较好...

08/15 21:27
1
0
dkhadoop大数据智能分析平台监控参数说明

2018年国内大数据公司50强榜单排名已经公布了出来,大快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。...

08/15 14:42
2
0
大数据技术的发展趋势

大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。这些技术下一步将如何发展?它们之中哪些技术 将广为流行?又会诞生哪些新的技术? 技术趋向多样化,...

08/14 17:09
1
0
hive 实现不同表交集操作

不知道大家发现没,我们在实现hive表 交集的时候,使用sql 语句中的union 和 intersect 会失败。这是因为该版本的hive并不支持 select id from t1 union select id from t2 select id from t...

08/14 15:55
1
0
Google笔记-续篇——数据分析

1、我真的确定用户是这样搜的吗? (词根都穷尽了没?)(蕾丝,露肩,上衣,婚纱。。。) 2、竞争对手是谁?都有哪些?它有专门针对这批词去做的吗?还是无意中杀死对手。。。。 3、竞品分析...

08/14 11:49
4
0
Couchbase vs Redis,究竟哪个更胜一筹?

Redis 和Couchbase都是基于内存的数据存储系统。在它们各自的官方描述中,Couchbase是高性能,高伸缩性和高可用的分布式缓存系统;Redis是一个开源的内存数据结构存储系统。 【权威比较】 Re...

08/14 10:33
2
0

没有更多内容

加载失败,请刷新页面

下一页

返回顶部
顶部