基于 Kubernetes 的机器学习工具库 Kubeflow

Apache
Python 查看源码»
跨平台
Google
2017-12-12
周其

疫情之下,程序员如何转型?共享数字化转型加速度,就在微软在线技术峰会>>>

Kubeflow 是谷歌发布的一个机器学习工具库,Kubeflow 项目旨在使 Kubernetes 上的机器学习变的轻松、便捷、可扩展,其目标不是重建其他服务,而是提供一种简便的方式找到最好的 OSS 解决方案。该库包含包含的清单用于创建:

  • 用于创建和管理交互式 Jupyter notebook 的 JupyterHub

  • 可配置为使用 CPU 或 GPU,并通过单一设置调整至单个集群大小的 TensorFlow 训练控制器(Tensorflow Training Controller)

  • TF 服务容器(TF Serving container)

该文档详述在可运行 Kubernetes 的任何环境中运行 kubeflow 项目的步骤。

Kubeflow 目标

其目标是通过发挥 Kubernetes 的特长,从而更便捷地运用机器学习:

  • 在不同的基础设施上实现简单、可重复的便携式部署(笔记本<-> ML 装备 <-> 训练集群 <-> 生产集群)

  • 部署和管理松散耦合的微服务

  • 根据需求进行扩展

由于机器学习从业者可供使用的工具非常多,所以核心目标是你可以根据需求自定义堆栈,并让系统处理无赖的东西」。虽然我们已开始使用少许技术,但我们正在与很多不同项目展开合作,以涵盖更多额外的工具。最终,我们希望给出一组简单的清单,只要在 Kubernetes 已运行的地方便能轻松使用 ML 堆栈,并可根据部署的集群实现自我配置。

设置

该文档假设你已经有一个可用的 Kubernetes 集群。对于具体的 Kubernetes 安装,可能需要额外的配置。

Minikube

Minikube 是一个让我们在本地运行 Kubernetes 更方便的工具。Minikube 会在笔记本的虚拟环境中运行一个单结点 Kubernetes 集群,从而令用户可以在该环境中试验它或执行日常的开发工作。下面的步骤适用于 Minikube 集群,本文档当前使用的是最新版 0.23.0,我们必须配置 Kubectl 才能访问 Minikube。

谷歌 Kubernetes 引擎

谷歌 Kubernetes 引擎是一个可用于部署容器化应用的托管环境。它融合了提高开发生产力、有效利用资源、自动化运维和开源灵活性方面的最新创新技术,能够加快模型进入市场以及迭代的时间。

谷歌在容器中运行生产工作负载的经验已超过 15 年,他们将在此期间学到的经验知识融入到了 Kubernetes 中。因此,Kubernetes 是行业领先的开源容器协调系统,为 Kubernetes Engine 提供技术支持。

如果读者正在使用谷歌 Kubernetes 引擎,在创建清单前,我们应该先授予自己所要求的 RBAC 角色,因而才能创建或编辑其它 RBAC 角色。

kubectl create clusterrolebinding default-admin --clusterrole=cluster-admin --user=user@gmail.com
的码云指数为
超过 的项目
加载中

评论(3)

小-夜-曲
小-夜-曲
mark
东方皓
东方皓
Mark,Mark
吴佩在
吴佩在
Mark

k8s 机器学习工具包 Kubeflow 发布 1.0 稳定版

Kubeflow 首个重要版本 1.0 已发布,Kubeflow 原本称作 TensorFlow Extended,是谷歌内部用于将 TensorFlow 模型部署到 Kubernetes 的平台,现在的的名称取自 Kubernetes + Tensorflow。Kub...

03/06 07:45

Kubeflow 公布 1.0 路线图:2019 年实现 API 稳定

Kubeflow,名字取自 Kubernetes + Tensorflow ,是 Google 为了支持 Tensorflow 的部署而推出的开源平台。Kubeflow 旨在使 Kubernetes 上的机器学习变的轻松、便捷、可扩展,其目标不是重建其...

2019/01/06 08:02

Kubeflow 0.1 发布,基于 Kubernetes 的机器学习工具库

Google 发布了 Kubeflow 开源工具 0.1 版本,该工具旨在将机器学习带入 Kubernetes 容器的世界。该项目背后的想法是让数据科学家充分利用在 Kubernetes 集群上运行机器学习任务的优势。Kubef...

2018/05/07 07:55

没有更多内容

加载失败,请刷新页面

没有更多内容

10
回答
ElasticDL:首个基于 TensorFlow 实现弹性深度学习的开源系统

9 月 11 日,蚂蚁金服开源了 ElasticDL 项目,据悉这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 Google Bra...

2019/09/11 15:32

没有更多内容

加载失败,请刷新页面

没有更多内容

Kubeflow镜像的快速下载(V0.3.3)

Kubeflow是一个面向Kubernetes集群运行的机器学习框架。要想使用得先想办法把镜像搬到自己的环境里来。 目前版本0.3.3的容器镜像已经搬回来,可以使用下面的脚本来从Aliyun的镜像服务站下载:...

2018/11/28 14:15
2.2K
0
AirFlow/NiFi/MLFlow/KubeFlow进展

大数据分析中,进行流程化的批处理是必不可少的。传统的大数据处理大部分是基于关系数据库系统,难以实现大规模扩展;主流的基于Hadoop/Spark体系总体性能较强,但使用复杂、扩展能力弱。大数...

2019/06/21 11:49
2.7K
0
Kubeflow等镜像部署到集群多节点

为了将Kubeflow(https://github.com/kubeflow/kubeflow)/Kubernetes等镜像放到本地集群部署或者更新,需要一系列的操作。如果集群的多个节点同时访问外部镜像服务,将带来较大的并发网络流...

2018/11/28 16:32
1.3K
0
Kubeflow 入门——为 Kubernetes 打造的组件化、可移植、可扩展的机器学习堆栈

【编者的话】本文来自 Kubeflow 项目的产品经理 David Aronchick 和首席工程师 Jeremy Lewi,主要讲了他们新的开源项目——Kubeflow 的一些入门知识,Kubeflow 致力于使 Kubernetes 上的机器...

2018/05/06 16:01
1.5K
0
Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用TfJob运行分布式模型训练。 第一篇:阿里云上使用JupyterHub 第二篇:阿里云上小试TFJob 第三篇:利用TFJob运行分布...

2018/06/14 14:40
257
0
ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为:https://github.com/sql-machine-learni...

2019/09/16 19:42
167
0
利用Kubernetes和Helm进行高效的超参数调优

Author: xidianwangtao@gmail.com 摘要:本文将讨论Hyperparameter调优在落地时面临的问题,以及如何利用Kubernetes+Helm解决这些问题。 Hyperparameter Sweep面临的问题 在进行Hyperparame...

2018/09/06 18:21
2K
2
ElasticDL: Kubernetes-native 弹性分布式深度学习系统

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系...

2019/09/16 15:24
264
0
Spark机器学习工具链-MLflow简介

Spark机器学习工具链-MLflow简介 本文翻译自 https://github.com/openthings/mlflow 本文地址 https://my.oschina.net/u/2306127/blog/1825638, by openthings, 2018.06.07. 参考: mlflow...

2018/06/07 07:40
2.5K
0
Spark机器学习工具链-MLflow使用教程

Spark机器学习工具链-MLflow使用教程 本文翻译自 https://www.mlflow.org/docs/latest/concepts.html 本文地址 https://my.oschina.net/u/2306127/blog/1825690,by openthings, 2018.06.07...

2018/06/07 09:42
4.4K
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部