Apache Spark 2.0.0 发布,APIs 更新 - 开源中国社区
Apache Spark 2.0.0 发布,APIs 更新
oschina 2016年07月28日

Apache Spark 2.0.0 发布,APIs 更新

oschina oschina 发布于2016年07月28日 收藏 46

腾讯云-1小时搭建人工智能应用,让技术更容易入门>>>  

Apache Spark 2.0.0 发布了,Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

该版本主要更新APIs,支持SQL 2003,支持R UDF ,增强其性能。300个开发者贡献了2500补丁程序。

Apache Spark 2.0.0 APIs更新记录如下:

  • Unifying DataFrame and Dataset: In Scala and Java, DataFrame and Dataset have been unified, i.e. DataFrame is just a type alias for Dataset of Row. In Python and R, given the lack of type safety, DataFrame is the main programming interface.

  • SparkSession: new entry point that replaces the old SQLContext and HiveContext for DataFrame and Dataset APIs. SQLContext and HiveContext are kept for backward compatibility.

  • A new, streamlined configuration API for SparkSession

  • Simpler, more performant accumulator API

  • A new, improved Aggregator API for typed aggregation in Datasets

Apache Spark 2.0.0 SQL更新记录如下:

  • A native SQL parser that supports both ANSI-SQL as well as Hive QL

  • Native DDL command implementations

  • Subquery support, including

    • Uncorrelated Scalar Subqueries

    • Correlated Scalar Subqueries

    • NOT IN predicate Subqueries (in WHERE/HAVING clauses)

    • IN predicate subqueries (in WHERE/HAVING clauses)

    • (NOT) EXISTS predicate subqueries (in WHERE/HAVING clauses)

  • View canonicalization support

一些新特性:

  • Native CSV data source, based on Databricks’ spark-csv module

  • Off-heap memory management for both caching and runtime execution

  • Hive style bucketing support

  • Approximate summary statistics using sketches, including approximate quantile, Bloom filter, and count-min sketch.

性能增强:

  • Substantial (2 - 10X) performance speedups for common operators in SQL and DataFrames via a new technique called whole stage code generation.

  • Improved Parquet scan throughput through vectorization

  • Improved ORC performance

  • Many improvements in the Catalyst query optimizer for common workloads

  • Improved window function performance via native implementations for all window functions

  • Automatic file coalescing for native data sources

更多发布信息,可查看发布说明

下载地址:http://spark.apache.org/downloads.html

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Apache Spark 2.0.0 发布,APIs 更新
分享
评论(22)
最新评论
0
Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)
课程观看地址:http://www.xuetuwuyou.com/course/149
0

引用来自“黄奕杰”的评论

谁知道去哪里搞一大堆数据玩玩?
www.kdnuggets.com/datasets/index.html
0

引用来自“臭水沟”的评论

300个开发者贡献了2500补丁程序。。啧啧
英文叫patches,翻译过来有点奇怪而已,没问题。
0

引用来自“黄奕杰”的评论

谁知道去哪里搞一大堆数据玩玩?
这是搜狐的数据 http://www.sogou.com/labs/resource/list_pingce.php
当然还有其他的,比如阿里公布的一些
0
发展真快。
0

引用来自“笔阁”的评论

spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/

引用来自“黄奕杰”的评论

谢谢
不骂我就行。
0
一颗赛艇~~
0
谁知道去哪里搞一大堆数据玩玩?
0

引用来自“笔阁”的评论

spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/
谢谢
0
现在还在用1.6 期待切换2.0
0

引用来自“Rwing”的评论

这是个啥?
真心不错
0
发展好迅猛
0
喜大普奔
0
喜大普奔
0
这是个啥?
0
spark在线练习,可以一试。

http://www.hubwiz.com/course/5449c691e564e50960f1b7a9/
0
Great!
0
Hhh
0
2500个补丁。。。
0
必须,顶一个!!!!
顶部