latest
用户文档
介绍
安装
算法
运行试验
试验输出
绘制结果
强化学习介绍
第一部分:强化学习中的核心概念
第二部分:强化学习算法
第三部分:策略优化介绍
资源
深度强化学习研究者资料
深度强化学习的核心论文
练习
Spinning Up 算法实现的基准
算法文档
Vanilla Policy Gradient
Trust Region Policy Optimization
Proximal Policy Optimization
Deep Deterministic Policy Gradient
Twin Delayed DDPG
Soft Actor-Critic
工具文档
日志记录
绘图
MPI工具
运行工具
其他
致谢
关于作者
Spinning Up
Docs
»
深度强化学习 Spinning Up 项目中文版
Edit on GitHub
深度强化学习 Spinning Up 项目中文版
¶
用户文档
介绍
这个项目是什么
为什么创建这个项目
这个项目如何服务我们的使命
代码设计的原则
支持计划
安装
安装 Python
安装 OpenMPI
安装 Spinning Up
检查你的安装
安装 MuJoCo (可选)
算法
包括哪些算法
为什么使用这些算法?
代码格式
运行试验
从命令行启动
从脚本启动
试验输出
算法输出
保存目录位置
加载并运行经过训练的策略
绘制结果
强化学习介绍
第一部分:强化学习中的核心概念
强化学习能做什么?
核心概念和术语
(可选)数学形式
第二部分:强化学习算法
强化学习算法分类
分类中提到的算法链接
第三部分:策略优化介绍
推导最简单的策略梯度
实现最简单的策略梯度
期望梯度对数概率引理
不要让过去使你分心
实现 Reward-to-Go 策略梯度
策略梯度基准
其他形式的策略梯度
概括
资源
深度强化学习研究者资料
正确的背景
在动手中学习
开展一个研究项目
做严谨的强化学习研究
别想太多
以及:其他资源
参考
深度强化学习的核心论文
1. 免模型强化学习
2. 探索
3. 迁移和多任务强化学习
4. 层次(Hierarchy)
5. 记忆(Memory)
6. 有模型强化学习
7. 元学习(Meta-RL)
8. 扩展强化学习
9. 现实世界的强化学习
10. 安全性
11. 模仿学习和逆强化学习
12. 可复现、分析和评价
13. 额外奖励:强化学习理论的经典论文
练习
问题集1:基础实现
问题集2:算法失败模型
挑战
Spinning Up 算法实现的基准
每个环境中的性能
实验细节
算法文档
Vanilla Policy Gradient
背景
文档
参考
Trust Region Policy Optimization
背景
文档
参考
Proximal Policy Optimization
背景
文档
参考
Deep Deterministic Policy Gradient
背景
文档
参考
Twin Delayed DDPG
背景
文档
参考
Soft Actor-Critic
背景
文档
参考
工具文档
日志记录
使用Logger
Logger类
加载保存的图
绘图
MPI工具
核心MPI工具
MPI + Tensorflow 工具
运行工具
ExperimentGrid
运行实验
其他
致谢
关于作者
索引和目录
¶
索引
模块索引
搜索页面
Read the Docs
v: latest
Versions
latest
stable
Downloads
html
epub
On Read the Docs
Project Home
Builds
Free document hosting provided by
Read the Docs
.