发表了博客
2019/04/12 11:09

spark小文件合并解决多级分区

package spark10.access import java.text.SimpleDateFormat import java.util.Date import org.apache.hadoop.fs.{FileSystem, Path} import org.apache.log4j.Logger import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext, sql} import org.apache.spark.sql.{DataFrame, SQLContext, SaveMode} /** * Created by hadoop on 下午10:01. * */ object AccesslogETL { def main(args...

0
0
发表了博客
2018/06/06 15:47

spark 对kafka数据进行统计并批量插入数据库

1、初始化kafka相关参数,在APP类初始化的时候即获取kafka对应的topic参数 public App(){ try{ kafkaParams.put("metadata.broker.list", ConfigUtil.getInstance().getKafkaConf().get("brokerlist")); kafkaParams.put("group.id", Constant.groupId); scala.collection.mutable.Map<String, String> mutableKafkaParam = JavaConversions .mapAsScalaMap(kafkaParams); ...

0
0
发表了博客
2014/11/14 09:32

sparkSQL1.1入门之二:sparkSQL运行架构

在介绍sparkSQL之前,我们首先来看看,传统的关系型数据库是怎么运行的。当我们提交了一个很简单的查询: SELECT a1,a2,a3 FROM tableA Where condition 可以看得出来,该语句是由Projection(a1,a2,a3)、Data Source(tableA)、Filter(condition)组成,分别对应sql查询过程中的Result、Data Source、Operation,也就是说SQL语句按Result-->Data Source-->Operation的次序来描述的。那么,SQL语句在实际的运行过程中...

0
1
发表了博客
2018/06/08 16:28

spark解析CSV文件

import java.util import org.apache.spark.sql.types.{DataTypes, StructField} import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.{SparkConf, SparkContext} object TelephoneData13 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("TelephoneData13") val sc = new SparkContext(conf) val sQLContext = new SQLContext(sc) val rdd = sQLCon...

0
0
发表了博客
2018/05/03 21:54

Spark学习之路 (十八)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) x: SparkSQL+DataFrame+DataSet(正式版本) SparkSQL:还有其他的优化 StructuredStreaming(DataSet) 二、认识SparkSQL 2.1 什么是SparkSQL? spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象...

0
0
发表了博客
2019/06/26 22:33

pyspark配置config

使用pyspark时要注意 pyspark_python 设置为python3.5 ,可以使用ml,运行环境也应该是python3.5,版本必须一致,不然会报错。 import findspark findspark.init() import pandas as pd import numpy as np import pickle import os os.environ["PYSPARK_PYTHON"] = "/home/q/conda/bin/python3.5" from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession, SQLContext from pyspark.ml.feature imp...

0
0
发表了博客
2018/05/15 10:39

【sparkSQL】SparkSession的认识

在Spark1.6中我们使用的叫Hive on spark,主要是依赖hive生成spark程序,有两个核心组件SQLcontext和HiveContext。 这是Spark 1.x 版本的语法 //set up the spark configuration and create contexts val sparkConf = new SparkConf().setAppName("SparkSessionZipsExample").setMaster("local") // your handle to SparkContext to access other context like SQLContext val sc = new SparkContext(sparkConf).set("spa...

0
0
发表了博客
2018/07/15 16:46

Spark(十二)SparkSQL简单使用

一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始:SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) 2.x: SparkSQL+DataFrame+DataSet(正式版本) SparkSQL:还有其他的优化 StructuredStreaming(DataSet) Spark on Hive和Hive on Spark Spark on Hive: Hive只作为储存角色,Spark负责sql解析优化,执行。 Hive on Spark:Hive即作为...

0
0
发表了博客
2018/03/25 09:33

pandas dataframe to rdd

import pandas as pd from pyspark.sql import SQLContext from pyspark import SparkContext from pyspark.sql import SparkSession sc = SparkContext()#连接spark sqlContest = SQLContext(sc)#连接sparksql pd_df = pd.DataFrame()#创建pandas dataframe spark_df = sqlContest.createDataFrame(pd_df)#pandas dataframe转为sparksql dataframe y = spark_df.rdd.map(lambda x: (x, x*2)) y.collect() spark = SparkSessio...

0
0
发表了博客
2019/08/08 19:09

SparkSql API

通过api使用sparksql 实现步骤: 1)打开scala IDE开发环境,创建一个scala工程 2)导入spark相关依赖jar包 3)创建包路径以object类 4)写代码 代码示意: package cn.tedu.sparksql import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext object Demo01 { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("spark://hadoop01:7077")...

0
0
发表于AI & 大数据专区
2018/10/28 22:01

mysql数据通过jdbc操作作为Spark数据源案例

package cn.spark.study.sql; import java.sql.Connection; import java.sql.DriverManager; import java.sql.Statement; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org...

0
0
2014/08/27 21:02

Spark SQL编程指南

#Spark SQL 编程指南# ##简介## Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。它的核心组件是一个新增的RDD类型JavaSchemaRDD。JavaSchemaRDD由Row对象和表述这个行的每一列的数据类型的schema组成。一个JavaSchemaRDD类似于传统关系数据库的一个表。JavaSchemaRDD可以通过一个已存在的RDD,Parquet文件,JSON数据集,或者通过运行HiveSQL获得存储在Apache Hive上的数据创建。 Spark SQL目前是一个alpha组件。尽...

0
35
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页