强化学习算法工具包 OpenAI Gym

MIT
Python
跨平台
2019-06-25
xplanet

OpenAI Gym 是一个用于开发和比较强化学习算法的工具包。

gym 不对代理的结构做任何假设,并且与任何数值计算库兼容,例如 TensorFlow 或 Theano。

有关 OpenAI Gym 的白皮书,请访问 http://arxiv.org/abs/1606.01540,这里有一个 BibTeX 条目,可以在出版物中引用它:

@misc{1606.01540,
  Author = {Greg Brockman and Vicki Cheung and Ludwig Pettersson and Jonas Schneider and John Schulman and Jie Tang and Wojciech Zaremba},
  Title = {OpenAI Gym},
  Year = {2016},
  Eprint = {arXiv:1606.01540},
}

Basics

强化学习有两个基本概念:环境(即外部世界)和代理(即你正在编写的算法)。代理向环境发送操作,环境回复观察和奖励(即分数)。

核心的 gym 界面是 Env,它是统一的环境界面。没有代理商界面。以下是应该了解的 Env 方法:

  • reset(self)::重置环境的状态。返回观察。
  • step(self, action):一步一步进入环境。返回观察、奖励、完成、信息。
  • render(self, mode='human'):渲染一帧环境。默认模式将执行人性化的操作,例如弹出窗口。

安装

可以执行最小的安装:

git clone https://github.com/openai/gym.git
cd gym
pip install -e .

可以直接从 PyPI 进行最小的打包版本安装:

pip install gym

可以立即运行一些环境:

  • 算法
  • toy_text
  • classic_control(需要 pyglet 来渲染)

建议首先使用这些环境,然后再安装其余环境的依赖项。

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

能作曲的人工智能 深度神经网络MuseNet

现在人工智能也在构成,OpenAI开发了深度神经网络MuseNet,它可以使用四种不同的乐器,结合国家,莫扎特或Lady Gaga的风格,制作四分钟的音乐作品。 OpenAI不教MuseNet音乐或它是安排理论,但...

04/29 15:24
6
0
tensorflow强化学习之打乒乓球(Reinforcement Learning)

强化学习则更像人类的学习过程,这次3天达到世界顶尖高手水平的alpha zero也是基于强化学习的算法,从0开始。连接主义学习里,有监督学习,非监督学习,还有强化学习,强化学习靠环境提供的强...

2017/11/03 16:04
159
0
OpnAI推出深度神经网络模型 拥有自我注意力机制

OpnAI近日开发了一套深度神经网络模型Sparse Transformer,透过改良过的注意力(attention)机制算法,来萃取出更多序列中的模式,进而预测出序列中下一段文字、图像或是语音,OpenAI指出,在...

04/25 15:58
6
0
让人工智能学习增强好奇心 玩游戏分数超越人类

OpenAI发表了RND(Random Network Distillation),以基于预测的方法,透过好奇心带领增强学习代理人探索环境。OpenAI提到,这是首次人工智能游玩「蒙特祖马的复仇」(Montezuma’s Revenge)这...

2018/11/06 17:09
17
0
OpenAI发现人工智能已开始学会情绪判断能力

OpenAI 的研究人员意外发现,一个训练用来预测亚马逊网站(Amazon)评论文章下一个字符的神经网络,竟然自行学会情绪的判断。这种非监督式学习是机器学习领域追求的目标。 能自我学习情绪的判...

2018/12/14 15:46
9
0
提供 AI 代理的「限定」游戏 OpenAI持续训练 AI 玩游戏

OpenAI 一直试着训练 AI 玩各种复杂的游戏,在先前《星海争霸》、《DOTA 2》的测试打败一些职业选手后,OpenAI 将注意力转向更复杂的大型多人在线(MMO)世界。 当然,OpenAI 并不会立即就向...

03/08 16:15
6
0
OpenAI的Debate Game在辩论和说谎方面教导机器人

据外媒 TheNextWeb 报道,OpenAI 全新的 Debate Game 旨在教机器人如何辩论和说谎,以获得它们想要的东西。由埃隆·马斯克(Elon Musk)共同创立的非营利组织 OpenAI 正在开发一种新的深度学...

2018/05/20 09:59
7
0
GPT-2,吓坏创造者的「深度造假写手」

简评: 今年二月份刷屏的 GPT-2 着实厉害,那个生成续写故事的例子更是效果好到吓人一跳,它到底有多厉害,本文略微讲讲。更详细的信息可参考文末 OpenAI 的博客链接。 你能从下面这两段文字...

05/15 10:55
8
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部