Apache Spark 2.0.0 发布,APIs 更新 - 开源中国社区
Float_left Icon_close
Apache Spark 2.0.0 发布,APIs 更新
oschina 2016年07月28日

Apache Spark 2.0.0 发布,APIs 更新

oschina oschina 发布于2016年07月28日 收藏 46

Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。300个开发者贡献了2500补丁程序。

Apache Spark 2.0.0 APIs更新记录如下:

  • Unifying DataFrame and Dataset: In Scala and Java, DataFrame and Dataset have been unified, i.e. DataFrame is just a type alias for Dataset of Row. In Python and R, given the lack of type safety, DataFrame is the main programming interface.

  • SparkSession: new entry point that replaces the old SQLContext and HiveContext for DataFrame and Dataset APIs. SQLContext and HiveContext are kept for backward compatibility.

  • A new, streamlined configuration API for SparkSession

  • Simpler, more performant accumulator API

  • A new, improved Aggregator API for typed aggregation in Datasets

Apache Spark 2.0.0 SQL更新记录如下:

  • A native SQL parser that supports both ANSI-SQL as well as Hive QL

  • Native DDL command implementations

  • Subquery support, including

    • Uncorrelated Scalar Subqueries

    • Correlated Scalar Subqueries

    • NOT IN predicate Subqueries (in WHERE/HAVING clauses)

    • IN predicate subqueries (in WHERE/HAVING clauses)

    • (NOT) EXISTS predicate subqueries (in WHERE/HAVING clauses)

  • View canonicalization support

一些新特性:

  • Native CSV data source, based on Databricks’ spark-csv module

  • Off-heap memory management for both caching and runtime execution

  • Hive style bucketing support

  • Approximate summary statistics using sketches, including approximate quantile, Bloom filter, and count-min sketch.

性能增强:

  • Substantial (2 - 10X) performance speedups for common operators in SQL and DataFrames via a new technique called whole stage code generation.

  • Improved Parquet scan throughput through vectorization

  • Improved ORC performance

  • Many improvements in the Catalyst query optimizer for common workloads

  • Improved window function performance via native implementations for all window functions

  • Automatic file coalescing for native data sources

更多发布信息,可查看发布说明

下载地址:http://spark.apache.org/downloads.html

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Apache Spark 2.0.0 发布,APIs 更新
分享
评论(22)
最新评论
0
Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)
课程观看地址:http://www.xuetuwuyou.com/course/149
0

引用来自“黄奕杰”的评论

谁知道去哪里搞一大堆数据玩玩?
www.kdnuggets.com/datasets/index.html
0

引用来自“臭水沟”的评论

300个开发者贡献了2500补丁程序。。啧啧
英文叫patches,翻译过来有点奇怪而已,没问题。
0

引用来自“黄奕杰”的评论

谁知道去哪里搞一大堆数据玩玩?
这是搜狐的数据 http://www.sogou.com/labs/resource/list_pingce.php
当然还有其他的,比如阿里公布的一些
0
发展真快。
0

引用来自“笔阁”的评论

spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/

引用来自“黄奕杰”的评论

谢谢
不骂我就行。
0
一颗赛艇~~
0
谁知道去哪里搞一大堆数据玩玩?
0

引用来自“笔阁”的评论

spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/
谢谢
0
现在还在用1.6 期待切换2.0
0

引用来自“Rwing”的评论

这是个啥?
真心不错
0
发展好迅猛
0
喜大普奔
0
喜大普奔
0
这是个啥?
0
spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/
0
Great!
0
Hhh
0
2500个补丁。。。
0
必须,顶一个!!!!
顶部