高手问答第 282 期 —— 学霸带你入门强化学习

OSC哒哒 发布于 2022/05/12 17:51
阅读 4K+
收藏 2

现在强化学习越来越热,作为机器学习及人工智能领域的一种重要方法,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。同时,强化学习对应的岗位高薪、前景广阔,吸引了许多人学习。

但是,是强化学习的学习门槛很高,光入门就特别难。如果能有学霸的帮忙,那可就能事半功倍了!

OSCHINA 本期高手问答 (5 月 13日 -5 月 19日) 我们请来了 @王琦 @杨毅远 @江季 老师和大家一起探讨关于强化学习相关的问题。

可讨论的问题包括但不限于:

1.强化学习如何入门

2. 人工智能相关岗位实习面试等做哪些准备?

3. 强化学习技巧等

或者其它相关问题,也欢迎大家积极提问!

嘉宾介绍

王琦

《Easy RL:强化学习教程》作者,中国科学院大学硕士在读,Datawhale成员。主要研究方向为深度学习、数据挖掘。曾获中国大学生计算机设计大赛二等奖、亚太地区大学生数学建模竞赛 (APMCM)二等奖和“挑战杯”全国竞赛江苏省选拔赛二等奖,发表 SCI/EI 论文3篇。

杨毅远

《Easy RL:强化学习教程》作者,清华大学硕士在读, Datawhale成员。主要研究方向为时空数据挖掘、智能传感系统、深度学习。曾获全国大学生智能汽车竞赛总冠军、中国国家奖学金,发表SCI/EI论文7篇,其中以第一作者身份在SCI的Q1区、Q2区及中国计算机学会(CCF)A、B类会议中发表论文4篇。

江季

《Easy RL:强化学习教程》作者,北京大学硕士在读, Datawhale成员。主要研究方向为强化学习、机器人。曾获大学生电子设计竞赛——2018年嵌入式系统专题邀请赛(英特尔杯)一等奖,发表顶会论文 1 篇、专利 2 项。

为了鼓励踊跃提问,人民邮电出版社会在问答结束后从提问者中抽取 5 名幸运用户赠予《Easy RL:强化学习教程》一书。

购书地址:https://item.jd.com/13075567.html

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就强化学习相关的问题 @王琦 @杨毅远 @江季 老师提问,请直接回帖提问。

加载中
0
yaosaya
yaosaya

高手问答第 282 期 —— 学霸带你入门强化学习

@程思 @pyboy58 @ShawnSiao @hoverload @小xu中年

恭喜以上五位网友分别获得 Easy RL:强化学习教程》书籍一本 ; 请于5月27日前登陆账号, 私信 @yaosaya 告知快递信息(格式:姓名+电话+地址)

屮殖
屮殖
我晕,怎么没提示啊? 我还常常关注有没有提示呢,一直没有。 而且问答地址也不好找。
0
小xu中年
小xu中年

感谢,如果是自学,不知道要跑起这套强化学习需要什么系统资源?谢谢

qiwang067
qiwang067
回复 @johnjim0816 : 这里的 earl 是指 easy rl,也就是本书
johnjim0816
johnjim0816
如果是earl的资源的话,五代以上的cpu就可以,如果要更深入的话可能就需要服务器资源了
0
屮殖
屮殖

哇,这也是我可以看的吗?哈哈哈,开个玩笑。
最近两年一直在学习深度学习,刚刚才初觉入门,简单业务能根据业务需求来设计和优化神经网络。
对于强化学习一直还不敢涉猎。
最开始的时候,一直以为强化学习是深度学习的一部分,请问强化学习和深度学习的关系是什么?
还有,我听社区的大佬说,强化学习基本就是调参调出来的,是这样的吗?
另一点就是,对于学习强化学习的硬件条件有什么要求?貌似我初步了解的是好像真正能用起来而不是demo用途的训练成本起点也比较高啊?
最后一点是,如果我在深度学习有个入门的基础上,如果想在此基础上学习深度学习,我该注意什么?

johnjim0816
johnjim0816
回复 @程思 :需要的,简单的环境就不需要啊,类似于小锤四十大锤八十doge
qiwang067
qiwang067
回复 @程思 : 需要的,在跑一些深度强化学习(深度学习+强化学习)的代码,需要相应的GPU资源
屮殖
屮殖
回复 @johnjim0816 : 看了你们前一个提文的回答,难道硬件环境你们不需要GPU吗?
johnjim0816
johnjim0816
1、按照这位社区大佬的意思,深度学习也是调参调出来的,以我个人的看法来讲,虽然这句话不假,但是我觉得没必要放在心上,强化学习有理论和实践的应用,有很多比调参更重要的东西,比如环境建模,公式推导更新;2、不是demo的情况下得看具体环境规模了,不能一概而论。3、我觉得应该没啥要注意的,注意的就是深度学习与强化学习的侧重点就好了,但是两者中的应用也是有互相借鉴的点,比如深度学习的推荐系统也有用强化的
0
wy65
wy65

之前推导过神经网络的公式,也根据公式写过一个神经网络的demo,但是看到卷积神经网络就迷糊了,不太理解它的公式,请问有什么办法或者资料学习卷积神经网络呢?

qiwang067
qiwang067
补充一个资源,建议您可以看斯坦福的 CS231n 中卷积神经网络部分的视频,这门课讲得挺清楚的, 附 CS231n 公开课链接:https://www.bilibili.com/video/BV1nJ411z7fe?spm_id_from=333.337.search-card.all.click
johnjim0816
johnjim0816
我觉得可以看下李宏毅老师的深度学习课,他讲的比较通俗易懂
0
可莉大魔王
可莉大魔王
深度强化学习不同于深度学习,核心是决策。强化学习是模拟人类试错的机制,在与环境不断交互中进行策略提升,在很多现实场景,基于人类经验的操作是很差的,通过强化学习可以实现大幅度的提升,但是一些虚拟环境等都是强化学习目前需要注意解决的地方
johnjim0816
johnjim0816
对的,要么建模一个足够真实的环境,比如谷歌利用谷歌街景来做自动驾驶,要么直接在真实环境中训练
0
S
ShawnSiao

1.强化学习强化的是什么?

2.强化学习和机器学习是什么关系?

3.从事Java开发五年,如果要转向强化学习,需要做什么样的转变,从哪里入门,是否需要机器学习的基础?

谢谢回复!

S
ShawnSiao
回复 @johnjim0816 : 谢谢老师
johnjim0816
johnjim0816
1.你可以理解为强化学习就是通过探索训练的深度学习模型,强化的就是模型 2.广义上讲机器学习分为传统机器学习、深度学习和强化学习,前两者包括监督与无监督,后者就是半监督 3.这个比较复杂,既然从事五年,转行还是需要谨慎的,而且一般不建议转行。入门可以先入门一些机器学习的知识比如经典算法,深度学习的各种网络等,然后再看easyrl
0
南方Go
南方Go

1.强化学习是什么来的,可以运用在广告推荐和垃圾广告过滤的哪一方面?

2.Python相关的强化学习框架,推荐使用哪个?tensorFlow属于强化学习的框架吗?

3. 小白怎么学习强化学习,运用到生产和实际工作项目中,哪块业务看了强化学习,效率会大幅提高?

johnjim0816
johnjim0816
回复 @qiwang067 : 强化学习现在是归为机器学习的分支,没错
johnjim0816
johnjim0816
1. 强化学习其实最开始起源于最优控制,具体来说就是精确动态规划,广告推荐可以搜RL+推荐系统 2.你说的应该是GPU加速的学习框架,推荐好上手的torch,RL有一些分布式框架比如RLlib,但是入门先不用看 3.入门可以先看我们的书?如果运用得看具体环境和你的构思了,总结来讲就是可以探索且需求时序决策时都可以用
qiwang067
qiwang067
问题1回复(续): 关于强化学习在广告推荐的应用,您可以参考这篇文章: https://zhuanlan.zhihu.com/p/133140002
qiwang067
qiwang067
问题1回复: 强化学习是机器学习的分支,强化学习是一个受行为心理学启发而来的一个机器学习领域,它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不直接给决策器的输出打分,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,因此需要在不断的尝试中优化自己的策略以获得更高的收益。
0
turanorbob
turanorbob
第一次听见这个名词,以前只知道机器学习,强化学习是什么?为啥有强化学习,能帮我们解决什么问题?
qiwang067
qiwang067
续上条评论: 从广义上说,大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。强化学习的应用非常广泛,包括博弈论、控制论、优化等多个不同领域。这两年,AlphaGo 及其升级版横空出世,彻底改变了围棋这一古老的竞技领域,在业界引起很大震惊,其核心技术就是强化学习。与未来科技发展密切相关的机器人领域,从机器人行走、运动控制,到自动驾驶,都是强化学习的用武之地。
qiwang067
qiwang067
强化学习是机器学习的分支,强化学习是一个受行为心理学启发而来的一个机器学习领域,它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不直接给决策器的输出打分,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,因此需要在不断的尝试中优化自己的策略以获得更高的收益。
0
烨儿
烨儿

请问书的结构是什么样的,偏理论还是应用还是教程.书中有没有实际的应用案例详细的规划和实现.

qiwang067
qiwang067
书中有常见算法的应用,并且配有对应的Python实现的代码
qiwang067
qiwang067
全书共 13 章,大体上可分为两个部分:第一部分 包括第 1 ∼ 3 章,介绍强化学习基础知识以及传统强化学习算法;第二部分包括第 4 ∼ 13 章,介绍深度强化学习算法及其常见问题的解决方法。第二部分各章 相对独立,读者可根据自己的兴趣和时间选择性阅读。
johnjim0816
johnjim0816
偏应用,有代码的
0
hoverload
hoverload

即将从事web开发工作,想要扩展知识面、对RL有个大概认识,建议读本书吗,可以重点看哪些部分?文中提到强化学习的学习门槛很高,光入门就特别难。想知道自学入门的难点主要是什么,对数学的要求如何,非专业人士需要深究数学推导吗?此外据说强化学习在工程界需求小,提出的应用场景实际落地的不多,未来几年这种情况能否有改善呢,尤其是应用开发的场景

johnjim0816
johnjim0816
1.easyrl其实就是一个入门书,重点掌握基于值、基于策略梯度以及两者结合的演员-评论员算法即可 2、入门的难点在于实验难以收敛 3、对数学的要求比深度学习低,非专业不需要深究数学推导,只需要大致的为啥就行 4、这种情况个人认为在十几年前深度学习需求也少,这种情况其实也是在一边解决强化学习落地困难问题一边完善强化学习体系的情况下完成的。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部