人形机器人仿真
Mujoco
MyoSuite - 使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境/任务的集合,并包含在 OpenAI gym API 中
dm_robotics:为机器人研究创建和使用的库、工具和任务
人的建模
用于研究婴儿认知发展的平台 - 可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成
比赛
ROS
乐聚机器人控制 - 包含 Mujoco 仿真环境
将 ROS 与 MuJoCo 结合使用的封装器、工具和附加 API - 支持 Noetic,- 其他 mujoco_ros2_control
适用于 ROS 机器人的 FastRLAP 实现、相关的 Gazebo 环境,以及用于越野驾驶的 MuJoCo 环境
一款一体化 ROS 软件包 RoTools - 用于高级机器人任务调度、视觉感知、路径规划、仿真以及直接/远程操控。它利用 BehaviorTree 实现快速的任务构建和协调,并提供各种实用程序来弥合真实/模拟机器人与高级任务调度程序之间的差距。
人
使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境 - 包含在 OpenAI gym API 中
将 opensim 4.0+ MSK 模型转换为 MuJoCo 格式的工具 - 具有优化的肌肉运动学和动力学
在MuJoCo中建模和模拟人机交互任务 - 用户采用具有感知能力(例如自我中心视觉)的肌肉驱动生物力学模型进行建模,并通过强化学习进行训练以解决交互任务
探索与行为相关的神经网络 - 模仿行为来模拟大脑
机器人学习的模块化仿真框架和基准 - 包括人形机器人
使用 mujoco 和类人神经机械模型(而非人形机器人)实现 DeepMimic
用于机器人、深度强化学习和神经科学研究的 Python 工具
强化学习
使用 OpenAI Gym 环境的 xArm6 机器人强化学习框架 - 该模型使用深度确定性策略梯度(DDPG) 进行连续动作,并使用后见之明经验回放(HER)
在 OpenAI Gym 环境中为超级马里奥兄弟实现强化学习 - 使用近端策略优化 (PPO) 算法
使用 Policy-Gradient 方法在 OpenAI-Gym 中训练代理
基于 PyTorch 构建的强化学习算法的实现 - 它已针对高负载工作负载进行了优化,后端支持 CUDA 和 OpenMP(取决于硬件可用性)
Pytorch 实现的 MuZero 用于 Gym 环境 - 支持动作空间和观察空间的任何离散、Box 和 Box2D 配置
基于 Tensorflow 的 DDPG 实现 - 使用 DVC 跟踪管道进行实验
使用深度 Q 学习训练一个代理,让它在一个大的方形环境中收集尽可能多的黄色香蕉
reinforcement_learning_dataframe_matching
基于OpenAI Spinning Up和Stable-Baseline3的 PPO 实现
通过自适应策略正则化实现高效的现实世界强化学习,实现腿部运动
基于模型的 RL 算法 PlaNet 的 PyTorch 实现
DQN
将各种改进与强化学习算法相结合 - 试图遵循三个关键原则:数据效率、可扩展性和更快的训练速度
基于深度 Q 网络的 TensorFlow 2 强化学习实现
Atari 2600 游戏深度 Q 网络算法的重新实现及对比分析
在 lunarlander 和 bipedalwalker 上测试的 DQN 和 DDPG 的 PyTorch 实现
AC
软动作者-评论家:基于随机动作者的离线策略最大熵深度强化学习
用于机器人环境交互任务的演员-评论家模型预测力控制器的实验验证
针对 CS285 的深度 Q 学习、Actor Critic 和 Soft Actor Critics 算法的实现
实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础
实现的主要算法是 Soft Actor-Critic (SAC)
PPO
人工生命模拟器 - 结合了 PPO 和进化算法
在 OpenAI gym 中从 Ant-v4 环境衍生的自定义环境中实现 PPO,以学习穿越模板障碍
多智能体
模仿学习
通过语境翻译进行观察模仿 - 一种基于演示训练代理模仿专家的算法
利用扩散模型作为高表达性的策略类别,用于行为克隆和策略正则化
分层强化学习
使用 Pytorch、OpenAI Gym 和 Mujoco 进行机器人分层强化学习
hierarchy_Reinforcement_Learning
分布式强化学习
离线强化学习
使用新颖的 Hyena 连续卷积核作为 Transformer 的替代方案,以便在离线强化学习中高效地捕捉长距离依赖关系
使用 Transformer 模型的离线训练在元学习环境中执行上下文强化学习
Soft Actor-Critic 中的 SAC:基于随机参与者的离线策略最大熵深度强化学习
逆强化学习
元强化学习
Meta-World 是一个开源基准,用于开发和评估用于连续控制机器人操作环境的多任务和元强化学习算法
感知
规划
通过对不确定道路系统进行持续数据收集来进行路线优化 - 包裹递送算法,使其能够在更新道路系统信息的同时安排递送。
控制
一种基于视觉模型的强化算法 Dreamer - 它学习一个世界模型,该模型从高级像素图像中捕捉潜在动态,并完全在从学习到的世界模型中想象的部署中训练控制代理
通过在连接每条腿的两个连杆和躯干的八个铰链上施加扭矩来协调四条腿向前移动
为 Allegro Hand(一款拥有 16 个独立可控关节的机械手)实现了比例积分微分 (PID) 控制器
倒立摆 - 使用基于优化的操作空间控制来跟踪双摆的末端执行器位置
测试
验证gymnasium_roboticsmujoco 环境的 MuJoCo 模型变化 - 其他
专注于使用稳定基线 3方法和Gymnasium界面进行目标条件强化学习 - 其他
数据
使用 MuJoCo 生成的数据集的 NeRF 的 Pytorch 实现
包含 Machines in Motion 实验室中使用的机器人描述
MimicGen:使用人类演示的可扩展机器人学习的数据生成系统
大模型
将 ChatGPT 集成到机器人控制过程中,以实现零样本规划和控制
建模
为 Atlas 机器人提供了 mujoco 和 URDF 模型
使用变分自编码器 (VAE) 和生成对抗网络 (GAN) 等深度学习人工智能算法,可以使用训练数据集自动创建新的游戏内容
扩展控制器环境 - 包括推车上的倒立摆、弹簧加载倒立摆
固定在矢状平面中的 MuJoCo 和 URDF 模型,用于研究腿式机器人的算法
使用 V-HACD 将凹网格分解为凸包来创建 MJCF 模型
基于深度强化学习的 Next-Best-View 方法,用于未知对象重建
研究
信念状态编码器/解码器 - 似乎产生了一种可与波士顿动力手工算法(四足动物 Spot)相媲美的策略
按复杂性和关节数量的递增顺序训练 MuJoCo 环境(Hopper、Half-Cheetah 和 Ant)的模型
对于 safe_exploration 任务,既需要数据多样性,又需要在线训练安全保障
任意跌倒状态起身 - UE5
基于注意力的排列不变神经网络框架 的官方 PyTorch 实现
专为 Fanuc Robotiq 机械手设计的创新机械臂操控解决方案
反馈就是你所需要的一切吗?在目标条件强化学习中利用自然语言反馈
基于 DeepMind Control Suite 实现的具有对称性的 MDP 集合
研究 Transformers 1 层 Transformer 模型如何收敛到简单统计推断问题的贝叶斯最优解
提升 AI 对齐研究工程技能的资源 - 其他 、arena-problem-sets 、 3.0
自适应强化学习的表征学习 - 使用可微分可塑性、状态空间模型和深度强化学习
合成经验回放 (SynthER) 是一种基于扩散的方法 - 可以对强化学习 (RL) 代理收集的经验进行任意上采样,从而大幅提升采样效率和扩展优势
解决 OpenAI Gym 中的神经元中间算法遗传算法的问题
从梦想到控制:通过潜在想象力学习行为,在 PyTorch 中实现
深度强化学习中的首因偏差 - 深度强化学习代理的 JAX 实现,带有重置功能
利用扩散模型作为高表达性的策略类别 - 用于行为克隆和策略正则化
奖励
基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP
用示例代替奖励:通过递归分类进行基于示例的策略搜索 的 pytorch 实现
毕业论文
教程
学习
伯克利 CS 285的作业:深度强化学习、决策和控制 - 其他1 、其他2 、其他3 、其他4 、 其他5 、其他6 、 其他7 、其他8 、其他9 、其他10 、其他11 、 其他12 、 其他13 、 其他14 、其他15 、 其他16 、其他17 、其他18 、其他19 、其他20 、
一个专门用于学习使用 Half Cheetah 模型进行强化学习的存储库
CS 285 最终项目:基于连续时间模型的强化学习中的动态学习的神经常微分方程
RL相关项目 - 模仿学习、策略梯度
本课程包括建模不确定性、马尔可夫决策过程、基于模型的强化学习、无模型强化学习函数近似、策略梯度、部分可观察的马尔可夫决策过程
使用 Gymnasium 和 Mujoco 构建强化学习的示例
加州大学伯克利分校 CS285 深度强化学习 2022 年秋季
IASD 硕士深度强化学习课程的作业 - 基于课程Berkeley CS 285:深度强化学习、决策和控制
CS285 的最终项目代码库:加州大学伯克利分校的深度强化学习
任务
测试 RL 在量子控制中的应用 - 特别关注电路级和脉冲级门校准任务
与 ROS NIAS-API 类似的 CoppeliaSim 机器人模拟器的绑定
研究如何训练自适应人机界面,以在获得良好控制的同时最大限度地减少用户交互
使用 UR5e 机械臂和 Robotiq 2F-85 夹持器来操纵柔性物体
使用 Panda 的非常简单的 MuJoCo 拾取和放置任务
使用 NEAT RL 算法解决 ATARI Retro Pong
在 iCub 人形机器人上重现与 RL 项目相关的灵巧操作实验的代码
使用凸模型预测控制(MPC)的四足动物运动的 Python 实现
无人机
飞行和漂浮模型,例如四旋翼飞行器、悬挂有效载荷的四旋翼飞行器等
平台
Gym - 用于开发和比较强化学习算法,它提供了一个用于在学习算法和环境之间进行通信的标准 API,以及一组兼容该 API 的标准环境。已迁移至 Gymnasium
Agility Robotics 的 Cassie 机器人的 mujoco 模拟因尽可能快地向前行走/奔跑而获得奖励 - 其他
基于MuJoCo的多平台、模块化机器人仿真框架 - 主要用于机械臂的强化学习和控制算法实现
人机交互学习(HILL)和多智能体强化学习(MARL)研究平台
包含 REINFORCE、AC2、SAC 和 PPO 等热门算法的实现,并集成到 Gymnasium 环境
七种机器人模型、八种夹爪模型、六种控制器模式和九种标准化任务
ReDMan 是一个开源模拟平台,为可靠的灵巧操作提供了安全 RL 算法的标准化实现
Ray 由一个核心分布式运行时和一组用于加速 ML 工作负载的 AI 库组成
工具
一个基于 C++ 的批处理环境池 EnvPool - 基于 C++ 的高性能并行环境执行引擎(矢量化环境),适用于通用 RL 环境
用于处理MuJoCo Python 绑定和dm_control 的实用程序
一个用于优化的 Python 库,面向模块化机器人和进化计算
结构化的模块化设置,用于使用 Ray RLlib 库训练强化学习 (RL) 模型
统一原生 MuJoCo (MJC) 和 MuJoCo-XLA (MJX) 中实现的环境的开发和接口
包含几个具有正定成本函数的 gym 环境,旨在与稳定的 RL 代理兼容
Transformer (TIT) 中 Transformer 作为深度强化学习骨干的官方实现
cleanrl 具有研究友好特性的深度强化学习算法的高质量单文件实现(PPO、DQN、C51、DDPG、TD3、SAC、PPG) - 其他 、 其他2 、 其他3 、其他4 、其他5 、其他6 、 其他7
使用 Unity ML-Agents (AI) 进行深度强化学习的 3D 包装
一些基于 MuJoCo 物理引擎构建的 (C/C++) 示例和扩展
Mujoco Deepmind 的 Python 绑定中存储库mujoco_panda的实现
用于将MJCF(MuJoCo 建模格式)机器人模型文件中的有限元素转换为 URDF 的脚本
OpenAI Gym 环境使用 pybullet 来制作Tyrannosaur
现代机器学习论文的实现,包括 PPO、PPG 和 POP3D
用于处理 MuJoCo 中使用的复合 Wavefront OBJ 文件的 CLI
杂项
InterGP - 收集数据、训练代理的流程
ACM AI 所有研讨会内容代码等的存储库 - 内容按季度组织
ML/DL/CS 领域的一些工作清单 - 包括基于 GAN 的图像生成、物体检测、神经机器翻译、相似性和度量学习、语音转文本、文本转语音
这是Spinning Up的一个克隆版本,目标是使用最新的 PyTorch 版本
Reddit 评论机器人是一个基于 Python 的自动回复器
一些强化学习的算法 - 使用的环境是Windows10上的Python 3.10