PySpark中的分布式scikit-learn元估计器 sk-dist

Apache
Python
跨平台
2019-09-15
naughty

PySpark中的分布式scikit-learn元估计器

sk-dist是一个用于机器学习的Python模块,构建于scikit-learn之上,并在Apache 2.0软件许可下发布。 sk-dist模块可以被认为是“分布式scikit-learn”,因为它的核心功能是将scikit-learn内置的joblib并行化的meta-estimator训练扩展到spark。

主要特点

  • 分布式训练 -  sk-dist使用PySpark将scikit-learn元估计器的训练并行化。这允许对这些估计器进行分布式训练,而不对任何一台机器的物理资源进行任何限制。在所有情况下,火花伪像会自动从拟合估算器中剥离。然后可以对这些估计器进行酸洗和未腌制以用于预测任务,在预测时间对他们的scikit-learn对应物进行相同的操作。支持的任务是:
  • 网格搜索:分配超参数优化技术,特别是GridSearchCV和RandomizedSeachCV,使得每个参数集候选被并行训练。
  • 多类策略:分布多类分类策略,特别是OneVsRestClassifier和OneVsOneClassifier,使得每个二进制问题都是并行训练的。
  • 树集合:分布和回归的决策树集合,特别是RandomForest和ExtraTrees,是分布式的,以便每个树都是并行训练的。
  • 分布式预测 -  sk-dist提供了一个预测模块,该模块使用拟合的scikit-learn估算器为PySpark DataFrames构建矢量化UDF。这分配了scikit-learn估计器的predict和predict_proba方法,通过scikit-learn实现大规模预测。
  • 特征编码 -  sk-dist提供了一个名为Encoderizer的灵活的特征编码实用程序,它使用默认行为或用户定义的可自定义设置对混合类型的特征空间进行编码。它特别针对文本功能,但它还处理数字和字典类型的功能空间。
的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

使用python管理百度云存储

百度云存储(BCS)提供了很强大的存储空间,我最近考虑是不是拿它做个图床,其官方提供的python SDK相当详细,操作也比较简单,下面简单的说下它的用法,抛砖引玉,大家有什么更好的用途也请赐...

2014/01/12 04:03
4.5K
3
Tpc-ds测试以及结果

1.1 背景介绍 TPC-DS是衡量决策支持解决方案的性能,包括事实上的行业标准,但不限于,大数据系统。 目前版本为V2。它模型的几个一般适用的方面的决策支持系统,包括查询和数据维护。 虽然T...

2016/12/22 15:28
112
0
多进程侦听同一端口

http://tsecer.blog.163.com/blog/static/150181720125394056715/ 多进程侦听同一端口 多进程竞争连接请求 内核实现部分其实并不重要,也没什么好说的,只是比较好奇,就大致看一下相关实现。...

2013/10/25 17:22
168
0
TCP状态切换流程

TCP状态切换流程 enum { /* Description of States: TCP_SYN_SENT sent a connection request, waiting for ack TCP_SYN_RECV received a connection request, sent ack, waiting for final...

2016/12/19 21:43
40
0
socket IO多路复用 多线程 多进程

### 小知识点 **python中无块级作用域,是以函数为作用域** ```python #python中无块级作用域 if 1==1: name = 'alex' print(name) for i in range(10): name =i print(name) #python 中以函数...

2016/07/10 10:39
178
0
linux内核API每天来一发(5)

第七章 网络编程 第一节 Socket缓冲相关函数 如果想查看源码可以到这里用ctrl+F查看 http://blog.chinaunix.net/uid-488742-id-2113564.html skb_queue_empty 函数名称 检查一个队列是否为空...

2013/04/28 16:44
42
0
【华为云微服务引擎】从代码机制看AK/SK认证问题

前言 用户开发的微服务要想注册到华为云CSE的服务中心,就需要用到AK/SK认证。由于CSEJavaSDK提供了较多的配置方式,有时候容易出现错配和漏配的情况,本文从CSEJavaSDK读取AK/SK的关键代码入...

2018/08/02 00:41
184
1
c语言作业要求和书写。

今天作业输出10万内的的完全平方数。 void Square() { int num = 0, i = 0, Total, total; float sq1 = 0, sq2 = 0; float sk1 = 0, sk2 = 0, t1, t2; printf("第⑵-2题。\n"); printf("一个...

2016/10/31 15:10
10
2

没有更多内容

加载失败,请刷新页面

返回顶部
顶部