加入收藏 | 设为首页 | 会员中心 | 我要投稿 菏泽站长网 (https://www.0530zz.cn/)- 数据工坊、负载均衡、数据快递、云计算、事件网格!
当前位置: 首页 > 大数据 > 正文

27个深度强化学习算法的实例项目

发布时间:2021-05-22 21:18:44 所属栏目:大数据 来源:互联网
导读:在这里,您可以找到几个致力于深度强化学习方法的项目。 项目以矩阵形式部署:[env x model],其中env是要解决的环境,而model是解决该环境的模型/算法。 在某些情况下,可以通过几种算法来解决同一环境。 所有项目均以包含培训日志的Jupyter笔记本的形式呈
在这里,您可以找到几个致力于“深度强化学习”方法的项目。 项目以矩阵形式部署:[env x model],其中env是要解决的环境,而model是解决该环境的模型/算法。 在某些情况下,可以通过几种算法来解决同一环境。 所有项目均以包含培训日志的Jupyter笔记本的形式呈现。
支持以下环境:
 
AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.
 
在Udacity深度强化学习学位计划的框架内解决了四个环境(导航,爬虫,到达者,网球)。
 
- 蒙特卡洛方法 
 
在蒙特卡洛(MC)中,我们玩游戏的情节直到到达终点,我们从途中获得了奖励然后返回情节的开始。 我们重复此方法至足够的次数,然后平均每个状态的值。
 
- 时差方法与Q学习
 
- 连续空间中的强化学习(深度Q网络)
 
- 函数逼近和神经网络
 
通用逼近定理(UAT)规定,只要满足有关激活函数形式的轻微假设,就可以使用包含具有有限数量节点的单个隐藏层的前馈神经网络来近似任何连续函数。
 
- 基于策略的方法,爬山,模拟退火
 
在许多情况下,随机重启爬山是一种出奇的有效算法。 模拟退火是一种很好的概率技术,因为它不会偶然错误地将局部极值作为全局极值。
 
- 策略渐变方法,REINFORCE,PPO
 
定义一个性能指标J( theta)以使其最大化。 通过近似梯度上升来学习策略参数 theta。
 
- 关键行为法,A3C,A2C,DDPG,TD3,SAC
 
A3C与A2C的主要区别在于异步部分。  A3C由具有权重的多个独立代理(网络)组成,它们与环境的不同副本并行进行交互。 因此,他们可以在更少的时间内探索状态-行动空间的更大部分。
 
项目,模型和方法

(编辑:菏泽站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读