PigPen

PigPen

Apache
Java
跨平台
Netflix
2015-05-15
叶秀兰

PigPen 是 Clojure 的 Map-Reduce,可以编译到 Apache Pig 或者 Cascading

代码:

(require '[pigpen.core :as pig])

(defn word-count [lines]
  (->> lines
    (pig/mapcat #(-> % first
                   (clojure.string/lower-case)
                   (clojure.string/replace #"[^\w\s]" "")
                   (clojure.string/split #"\s+")))
    (pig/group-by identity)
    (pig/map (fn [[word occurrences]] [word (count occurrences)]))))


加载中

评论(0)

暂无评论

暂无资讯

暂无问答

让 PigPen 支持本地代码和命名空间

在[介绍 PigPen 的文章](http://techblog.netflix.com/2014/01/introducing-pigpen-map-reduce-for.html)中,作者在 Future Work 一节中提到,我们在 PigPen 中不能调用本地声明的代码。例如...

2014/02/06 22:19
86
0
PigPen 介绍:Clojure 的 Map-Reduce

这篇文章翻译自 [http://techblog.netflix.com/2014/01/introducing-pigpen-map-reduce-for.html](http://techblog.netflix.com/2014/01/introducing-pigpen-map-reduce-for.html)。之前翻译...

2014/01/18 23:37
261
0
hadoop pig(7)

Pig 1. pig pig 可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作 pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理 pig ...

2014/03/28 15:24
27
0
一个简单问题的Clojure实现

这几天试着用 [PigPen](http://ljie-pi.github.io/2014/01/15/pigpen-%E4%BB%8B%E7%BB%8D%EF%BC%9Aclojur-%E7%9A%84-map-reduce/) 写一些脚本来处理一些数据。过程中遇到一个问题,感觉永别的...

2014/01/24 23:26
73
0
分布式编程

AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统;   AMPLab SIMR:用在Hadoop MapReduce v1上运行Spark;   Apache Beam:为统一的模型以及一套用于定义和执行数据处理工...

2016/08/18 09:35
7
0
收藏 | 史上最全的“大数据”学习资源

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新...

2016/08/08 15:49
78
0
史上最全的“大数据”学习资源(上)[转]

从网上转的 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展...

2016/05/04 17:25
308
1
史上最全的机器学习资料(上)

摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB、Python、Clojure、Ruby等等。为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,...

2016/08/30 19:17
627
0
史上最全的“大数据”学习资源

当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数...

2016/11/10 17:10
87
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部