人形机器人仿真

Mujoco

官方的移动任务实现

层次世界模型实现人形全身控制

模仿学习基准专注于使用 MuJoCo 执行复杂的运动任务

全身控制的层次世界模型

MyoSuite - 使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境/任务的集合,并包含在 OpenAI gym API 中

将机器人送入家庭并收集数据

使用预测控制,通过 MuJoCo 进行实时行为合成

dm_robotics:为机器人研究创建和使用的库、工具和任务

人的建模

OpenSim 肌肉骨骼模型转到 MuJoCo

用于 mujoco 模拟的机器人模型集合

模和模拟人机交互任务的源代码

用于研究婴儿认知发展的平台 - 可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成

Menagerie:MuJoCo物理引擎高质量模型集合

比赛

足球射门、乒乓球对打

网球环境下的多智能体DDPG

ROS

乐聚机器人控制 - 包含 Mujoco 仿真环境

将 ROS 与 MuJoCo 结合使用的封装器、工具和附加 API - 支持 Noetic,- 其他 mujoco_ros2_control

车道跟随器与强化学习

基于 ROS2 的户外 SLAM 和自主导航

使用 Docker 构建 ROS2 运行环境

online_hdif_ws

Faur 手控制

适用于 ROS 机器人的 FastRLAP 实现、相关的 Gazebo 环境,以及用于越野驾驶的 MuJoCo 环境

一款一体化 ROS 软件包 RoTools - 用于高级机器人任务调度、视觉感知、路径规划、仿真以及直接/远程操控。它利用 BehaviorTree 实现快速的任务构建和协调,并提供各种实用程序来弥合真实/模拟机器人与高级任务调度程序之间的差距。

使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境 - 包含在 OpenAI gym API 中

将 opensim 4.0+ MSK 模型转换为 MuJoCo 格式的工具 - 具有优化的肌肉运动学和动力学

在MuJoCo中建模和模拟人机交互任务 - 用户采用具有感知能力(例如自我中心视觉)的肌肉驱动生物力学模型进行建模,并通过强化学习进行训练以解决交互任务

利用肌肉学习:拟人化任务中数据效率和鲁棒性的优势

从任意跌倒状态起身 - 其他

具有内部复杂性的网络模型架起了人工智能与神经科学的桥梁

训练和比较人形 AI 代理完成1v1 近战

探索与行为相关的神经网络 - 模仿行为来模拟大脑

sin-cassie-rl-python

双足步行者的Gym环境

PACER:行人动画控制器

机器人学习的模块化仿真框架和基准 - 包括人形机器人

使用 mujoco 和类人神经机械模型(而非人形机器人)实现 DeepMimic

带有通用规划器的 H-GAP 人形控制代码发布

仿生机器人

构建意识与决策机制

单变量径向基函数层:受大脑启发的低维输入深度神经层

用于机器人、深度强化学习和神经科学研究的 Python 工具

强化学习

使用 OpenAI Gym 环境的 xArm6 机器人强化学习框架 - 该模型使用深度确定性策略梯度(DDPG) 进行连续动作,并使用后见之明经验回放(HER)

四足动物-斯坦福小狗文档和训练学习者

强化学习算法的最小实现及其他强化学习相关实验

RL 控制和预测方法的实现(PyTorch 中的 DRL)

基于技能的基于模型的强化学习

gym上强化学习的一些实现

基于运动原语的 RL 算法的测试设置

使用 Openai-gym 进行强化学习

基于因果模型的强化学习工具包

从头开始实现 rl2

不同 RL 和轨迹优化算法的实现

在 OpenAI Gym 环境中为超级马里奥兄弟实现强化学习 - 使用近端策略优化 (PPO) 算法

基于模型的连续强化学习中的随机值梯度

RL-Project

基于状态扰动的无模型强化学习探索

强化学习

RL_project_2022

16831_RL_trading

rl_project

不同深度 Q 网络的有效性研究

使用 Policy-Gradient 方法在 OpenAI-Gym 中训练代理

CQL_AWAC_ICQL

基于 DDPG Keras实现示例的 TD3

基于 PyTorch 构建的强化学习算法的实现 - 它已针对高负载工作负载进行了优化,后端支持 CUDA 和 OpenMP(取决于硬件可用性)

模块化单文件强化学习算法库

rl

保守 Q 学习 (CQL)

Pytorch 实现的 MuZero 用于 Gym 环境 - 支持动作空间和观察空间的任何离散、Box 和 Box2D 配置

基于 Tensorflow 的 DDPG 实现 - 使用 DVC 跟踪管道进行实验

极限 Q 学习:无熵的最大熵强化学习

利用奖励序列分布进行视觉强化学习的泛化

用于稳健深度强化学习的状态对抗性 PPO

使用 PPO 训练 SNS

OpenAI Gym 环境的强化学习代理

rl

使用深度 Q 学习训练一个代理,让它在一个大的方形环境中收集尽可能多的黄色香蕉

使用基于策略的方法解决 CartPole 问题

使用交叉熵的连续山地车

强化学习算法的清晰框架和实现

强化学习 RAINBOW 算法的部分(重新)实现

使用 REINFORCE 算法解决 CartPole

探索无模型等变强化学习在运动中的应用

基于图像的循环强化学习

PPOimplementation

一种解决reacher环境的DDPG算法

Q 值函数作为障碍函数

模块化可扩展强化学习

Transformer 作为深度强化学习的骨干

学徒强化第二阶段

使用 Gymnasium 简单实现 PPO

TD3

reinforcement_learning_dataframe_matching

基础设施目标条件强化学习者

基于OpenAI Spinning Up和Stable-Baseline3的 PPO 实现

多目标最大后验策略优化

一种基于弱奖励信号进行奖励设计的方法

强化学习项目

使用强化学习方法扩展状态空间控制方法

Reaching_RL

离散扩散 Q 学习

通过基于强化学习的调度实现安全高效的多系统神经控制器

通过自适应策略正则化实现高效的现实世界强化学习,实现腿部运动

通过情景控制进行安全强化学习

通过随机模拟进行强化学习

使用双足机器人执行复杂控制任务的各种策略

对使用机械手进行强化学习的探索

基于模型的 RL 算法 PlaNet 的 PyTorch 实现

用于样本有效目标条件强化学习的度量残差网络

DQN

扩展深度 Q 网络模型以支持多模态输入

将各种改进与强化学习算法相结合 - 试图遵循三个关键原则:数据效率、可扩展性和更快的训练速度

基于深度 Q 网络的 TensorFlow 2 强化学习实现

Atari 2600 游戏深度 Q 网络算法的重新实现及对比分析

在 lunarlander 和 bipedalwalker 上测试的 DQN 和 DDPG 的 PyTorch 实现

Q学习在二十一点中的应用

重症监护应用的多准则深度 Q 学习

面向重症监护应用的安全领域知识辅助深度强化学习

dqn-探索-集成

targeted-double-q-learning

使用 OpenAI gym 环境训练 DQN 的简单脚本

DQN_AC

AC

软动作者-评论家:基于随机动作者的离线策略最大熵深度强化学习

用于机器人环境交互任务的演员-评论家模型预测力控制器的实验验证

SAC

使用 mypy 输入软演员-评论家 (SAC) 算法

强化学习软演员评论家算法教程

UE5 SAC

针对 CS285 的深度 Q 学习、Actor Critic 和 Soft Actor Critics 算法的实现

实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础

实现的主要算法是 Soft Actor-Critic (SAC)

强化学习的数学基础项目 03 - 连续控制

PPO

ppo-mujoco

RNN + PPO pytorch 实现

人工生命模拟器 - 结合了 PPO 和进化算法

训练 PPO 代理学习Cart Pole 游戏

在 OpenAI gym 中从 Ant-v4 环境衍生的自定义环境中实现 PPO,以学习穿越模板障碍

多智能体

个别奖励扶助的多智能体强化学习

多任务参与者评论家学习

多智能体竞赛

MADiff:基于扩散模型的离线多智能体学习

PyTorch 和 Ray 用于分布式 RL

模仿学习

通过语境翻译进行观察模仿 - 一种基于演示训练代理模仿专家的算法

使机械臂模仿另一只手臂的方向

通过模仿行为来理解大脑

利用扩散模型作为高表达性的策略类别,用于行为克隆和策略正则化

模仿预训练

柔性机器人非线性模型预测控制的安全模仿学习

Imitation-Learning

易于运行的模仿学习和强化学习框架

四足动物行为克隆实验

通过行为学习进行观察模仿

分层强化学习

使用 Pytorch、OpenAI Gym 和 Mujoco 进行机器人分层强化学习

hierarchy_Reinforcement_Learning

分层强化学习

分层隐式 Q 学习

测试稳定比例微分控制器中 mujoco 的 SPD 实现

分布式强化学习

学习竞赛:分布式强化学习与优化

强化学习的高性能分布式训练框架

具有重要性加权参与者-学习者架构的可扩展分布式深度强化学习

离线强化学习

离线强化学习算法 - 其他1其他2其他3

从完全离线策略数据中学习

使用新颖的 Hyena 连续卷积核作为 Transformer 的替代方案,以便在离线强化学习中高效地捕捉长距离依赖关系

使用 Transformer 模型的离线训练在元学习环境中执行上下文强化学习

基于扩散模型的离线强化学习约束策略搜索

利用离线强化学习算法解决三指任务的实现

离线强化学习的扩散策略

保守离线策略评估的幻觉控制

离线强化学习作为一个大序列建模问题的代码发布

HIQL:以潜在状态为行动的离线目标条件强化学习

符合道德规范的 rl

使用封闭式策略改进算子的离线强化学习

离线深度强化学习中的数据集审计

Soft Actor-Critic 中的 SAC:基于随机参与者的离线策略最大熵深度强化学习

逆强化学习

通过贝叶斯心理理论进行稳健逆强化学习

机器人手部操作任务的逆向强化学习

Inverse_RL

元强化学习

评估复杂任务分布中的元强化学习算法

人人皆可学习的元学习

PAC-贝叶斯离线元强化学习

Meta QLearning 实验优化机器人步行模式

Meta-World 是一个开源基准,用于开发和评估用于连续控制机器人操作环境的多任务和元强化学习算法

Optm-MetaRL

分布式分层元强化学习器

感知

物体检测与追踪

利用物理运动定律从二维标签学习单目三维物体定位

利用“任何事物分割”模型进行通用视觉强化学习

盲文识别

动作捕捉环境

规划

外展机器人学习决策

MoCapAct和dm_control的扩展,用于避障任务

使用 Graph Transformer 规划装配序列

虚拟工厂环境中的自主Transpalet导航项目

动作稳健决策transformer

通过对不确定道路系统进行持续数据收集来进行路线优化 - 包裹递送算法,使其能够在更新道路系统信息的同时安排递送。

用于欠驱动机器人手的硬件/软件协同优化

控制

一种基于视觉模型的强化算法 Dreamer - 它学习一个世界模型,该模型从高级像素图像中捕捉潜在动态,并完全在从学习到的世界模型中想象的部署中训练控制代理

基于对比示例的控制

机器人蛇形运动

MPC_MBPO

基于强化学习的双轮足平衡机器人控制

基于 RL 的 6 自由度机械臂逆运动学控制

学习使用 2-DoF 夹持器进行力控制

通过在连接每条腿的两个连杆和躯干的八个铰链上施加扭矩来协调四条腿向前移动

探索关节空间中潜在地标

用于调试应用于 mujoco 模型的控制器实现

简化 Mujoco 中机械手的设置和控制

CMU 16-831 机器人学习简介的作业

带手掌的四轴控制器,包括 RL 控制器和 IK 控制器

Kinova Gen3 机器人控制

如何更改加载模型中指定的执行器

为 Allegro Hand(一款拥有 16 个独立可控关节的机械手)实现了比例积分微分 (PID) 控制器

利用强化学习和 VAE 控制千足虫

刚体操作

倒立摆 - 使用基于优化的操作空间控制来跟踪双摆的末端执行器位置

测试

评估了 RL 领域的特征提取

l2r 基准测试

Mujoco测试平台

用于测试/评估 mujoco 物理模拟器的沙盒

offline_rl_benchmark_by_argo

验证gymnasium_roboticsmujoco 环境的 MuJoCo 模型变化 - 其他

rl-test

CQL,PDQN,离线RL评估

用于 RL 实验的模块化基准测试程序

视觉泛化的强化学习基准

专注于使用稳定基线 3方法和Gymnasium界面进行目标条件强化学习 - 其他

GUARD :通用统一安全强化学习开发基准

d4rl-slim-benchmark

mujoco_test

TEST

Safety-Gymnasium:统一的安全强化学习基准

机器人优化基准

RLXBench

mujoco-motoman-test

BenchSuite

使用 PyTorch 的 functorch 的稳定基线

l2r 基准测试

针对机器人操作的基准测试集

数据

用于模拟人形控制的多任务数据集

使用 MuJoCo 生成的数据集的 NeRF 的 Pytorch 实现

包含 Machines in Motion 实验室中使用的机器人描述

R2D2:住宅机器人演示数据集

域随机化示例

MimicGen:使用人类演示的可扩展机器人学习的数据生成系统

结果分享

训练或发展可控且多样化的级别生成器

可变形物体操控沙盒

大模型

将 ChatGPT 集成到机器人控制过程中,以实现零样本规划和控制

使用 3GPP 文件微调不同的 LLM

大型语言模型项目想法

为 ChatGPT 提供工具以使其具备空间推理能力

使用大型语言模型提示机器人行走

机器人技能合成的语言到奖励

RoCo:具有大型语言模型的辩证多机器人协作

扩大规模并精简:语言引导的机器人技能习得

建模

获取机器人 URDF

为 Atlas 机器人提供了 mujoco 和 URDF 模型

MuJoCo 的 3x3x3 拼图立方体模型

主动视觉强化学习的环境集合

仿生鼠机器人跨越多种地形工作

跳跃机器人 使用MuJoCo研究跳跃机器人腿部机构设计

使用MuJoCo研究跳跃机器人腿部机构设计

使用变分自编码器 (VAE) 和生成对抗网络 (GAN) 等深度学习人工智能算法,可以使用训练数据集自动创建新的游戏内容

用于 RL 的生成细胞自动机类学习环境

用于评估强化学习代理的适应和探索的环境

CoLeCT 项目的 MuJoCo 模拟环境

IsaacGym 环境示例 KukaTwoArms

CathSim:一种用于血管内介入的开源模拟器

使用 Kinova Gen3 机器人学习简单任务

扩展控制器环境 - 包括推车上的倒立摆、弹簧加载倒立摆

可以前进、后退、跳跃和绕自身旋转的立方体

固定在矢状平面中的 MuJoCo 和 URDF 模型,用于研究腿式机器人的算法

使用 V-HACD 将凹网格分解为凸包来创建 MJCF 模型

使用随机生成的障碍物训练机器人

基于深度强化学习的 Next-Best-View 方法,用于未知对象重建

用于训练四足机器人的gym

建筑物内的测试环境的 3D 模型

研究

谷歌研究库

信念状态编码器/解码器 - 似乎产生了一种可与波士顿动力手工算法(四足动物 Spot)相媲美的策略

包含SoftGym环境的基准算法

使用随机模拟部署保证机器人系统性能

进化机器人 Python——脑体协同优化框架

通过自适应情境感知策略实现强化学习中的动态泛化

强化学习中技能转移的分层启动源代码

描述符条件强化学习 MAP-Elites

OPTIMUS:利用视觉运动变换器进行模拟任务和运动规划

从不平衡演示中进行半监督模仿学习

通过最大化证据进行行动推断:基于世界模型的观察零样本模仿

按复杂性和关节数量的递增顺序训练 MuJoCo 环境(Hopper、Half-Cheetah 和 Ant)的模型

METRA:具有度量感知抽象的可扩展无监督强化学习

从示例对象轨迹和预抓取中学习灵巧操作

解决情境强化学习的新方法

对于 safe_exploration 任务,既需要数据多样性,又需要在线训练安全保障

PyTorch 机器人运动学

用于模仿学习的记忆一致神经网络 - 其他1

TimewarpVAE:同时进行时间扭曲和轨迹表征学习

PyTorch 中时间对称数据增强(TSDA)的实现

JAX 中的在线策略梯度算法

好奇探索中的目标条件离线规划

基于像素观测的状态安全强化学习

带有注意力缓存和批量束搜索的轨迹变换器实现

深海宝藏问题中采用帕累托主导策略的多目标强化学习

TimewarpVAE:同时进行时间扭曲和轨迹表示学习

实验机器人操作代理的PLEX 架构的代码和说明

任意跌倒状态起身 - UE5

等距运动流形基元

用于离线策略评估的状态-动作相似性表示代码

基于注意力的排列不变神经网络框架 的官方 PyTorch 实现

专为 Fanuc Robotiq 机械手设计的创新机械臂操控解决方案

对比学习作为目标条件强化学习

多智能体质量多样性

执行 器退化适应Transformer

根据给定轨迹数据推断动态模型的动态参数

强化学习中的硬阈值与进化策略相结合

反馈就是你所需要的一切吗?在目标条件强化学习中利用自然语言反馈

从多任务演示中学习共享安全约束

DeFog: 随机丢帧下的决策变换器

通过准度量学习实现最优目标达成强化学习

基于 DeepMind Control Suite 实现的具有对称性的 MDP 集合

研究 Transformers 1 层 Transformer 模型如何收敛到简单统计推断问题的贝叶斯最优解

利用多源工作负载知识促进指数顾问学习

引入基于评论家估计的不确定性抽样

提升 AI 对齐研究工程技能的资源 - 其他arena-problem-sets3.0

自适应强化学习的表征学习 - 使用可微分可塑性、状态空间模型和深度强化学习

具有大型语言模型的辩证多机器人协作

通过多任务策略提炼解决任务干扰

使用去噪扩散概率模型的轨迹生成、控制和安全性

策略转移终身RL

基于幻觉输入偏好的强化学习

对比贝叶斯自适应深度强化学习

可控性感知的无监督技能发现

深度方差加权(DVW)的官方实现

合成经验回放 (SynthER) 是一种基于扩散的方法 - 可以对强化学习 (RL) 代理收集的经验进行任意上采样,从而大幅提升采样效率和扩展优势

受控的多样性与偏好:迈向学习多样化的所需技能

SNS-Toolbox 方法论文中关于不同类型优化的代码

从受限专家演示中学习软约束

通过中间目标的监督学习进行强化学习

用于测试概念或尝试重现孤立问题的简单区域

通过扩散概率模型进行强化学习的策略表示

突破强化学习中重放率障碍,实现连续控制

可控性感知的无监督技能发现

解决 OpenAI Gym 中的神经元中间算法遗传算法的问题

从梦想到控制:通过潜在想象力学习行为,在 PyTorch 中实现

预测模型延迟校正强化学习

最佳评估成本跟踪

等变模型在潜在对称域中的惊人有效性

基于目标的随机优化替代方法

利用进化策略进化人工神经网络实现虚拟机器人控制

机器人环境的安全迁移学习

SIMCSUM

研究基于模型的强化学习中的不确定性量化

通过压缩学习选项

NaturalNets

去噪 MDP:比世界本身更好地学习世界模型

深度强化学习中的首因偏差 - 深度强化学习代理的 JAX 实现,带有重置功能

基于近似模型的安全强化学习屏蔽

利用扩散模型作为高表达性的策略类别 - 用于行为克隆和策略正则化

构建目标驱动的具身化大脑模型

稳定神经近似的逆向经验重放 - 其他

奖励

规律性作为自由游戏的内在奖励

基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP

用示例代替奖励:通过递归分类进行基于示例的策略搜索 的 pytorch 实现

毕业论文

利用 MARL 技术分解大动作空间来加速学习

硕士论文的所有脚本

教程

MuJoCo 模拟平台入门教程

Open AI Gym 基础教程

介绍机器人系统(主要为全驱动系统)控制的入门课程

适合所有人的人工智能书籍

学习-强化学习

强化学习的深入讲解

强化学习教程

学习

伯克利 CS 285的作业:深度强化学习、决策和控制 - 其他1其他2其他3其他4其他5其他6其他7其他8其他9其他10其他11其他12其他13其他14其他15其他16其他17其他18其他19其他20

采样策略梯度扩展

一个专门用于学习使用 Half Cheetah 模型进行强化学习的存储库

面向初学者的深度学习资料

学习走路

用于试验模拟器以举办第二届人工智能大奖赛的存储库

CMU 16-831 机器人学习简介的作业

使用 JAX 实现各种学习算法的练习代码

cs285

CS 285 最终项目:基于连续时间模型的强化学习中的动态学习的神经常微分方程

交互式机器人学习课程项目

CS285 最终项目

CS285

CS 285 作业

机器人相关课程

通过传统的机器学习方法和强化学习解决课程作业任务

CMU 16-831 机器人学习简介的作业

自己实现的深度强化学习算法

CS 285 最终项目:双人不完美信息合作博弈的强化学习

实用机器学习与深度学习

CS285-proj

symmetry-cs285

利用 MuJoCo 进行深度强化学习

大学强化学习考试(9 CFU)材料的组成部分

2022 年高级机器学习 (AML) 课程项目的最终代码

CSCE-642:深度强化学习的作业

CS285-Final-Project

CMU 16-831 机器人学习简介的作业

深度强化学习@伯克利(CS 285)

RL 课程的最终项目

关于课程作业的一些解决方案

DeepRL课程

cs285_hw1

2023年夏令营

关于 dm_control 的 AI 原理强化学习项目

RL相关项目 - 模仿学习、策略梯度

用于强化学习研究的快速且可定制的gym兼容零售店环境

本课程包括建模不确定性、马尔可夫决策过程、基于模型的强化学习、无模型强化学习函数近似、策略梯度、部分可观察的马尔可夫决策过程

使用 Gymnasium 和 Mujoco 构建强化学习的示例

cs285深度强化学习

解决Gym问题和其他机器学习实践

人工智能中心 2023 年春季项目的存储库

加州大学伯克利分校 CS285 深度强化学习 2022 年秋季

fa22-cs285-project

一些流行的深度强化学习算法的实现

DeepRL-CS285

一些训练和微调决策转换器的实验

学习强化学习的笔记

强化学习

cs285hw

CS 285 佳乐的作业

XAI611项目提案

dm_control 的 AI 原理强化学习项目

关于机器学习和控制的笔记本

伯克利 CS 285的作业:深度强化学习、决策和控制

加州大学伯克利分校 cs 285 课程作业

伯克利 CS 285的作业:深度强化学习、决策和控制

伯克利 CS 285的作业:深度强化学习、决策和控制

CS234 最终项目

强化学习课程练习的实现

强化学习练习

伯克利 CS 285的作业:深度强化学习、决策和控制

伯克利 CS 285的作业:深度强化学习、决策和控制

伯克利 CS 285的作业:深度强化学习、决策和控制

USD-22Z-Projekt

CS 285 深度强化学习课程材料

IASD 硕士深度强化学习课程的作业 - 基于课程Berkeley CS 285:深度强化学习、决策和控制

伯克利 CS 285的作业:深度强化学习、决策和控制

学习CS285时做的作业

cs285HW

CS839-最终项目

831project

强化学习课程的练习和项目代码

伯克利 CS 285的作业:深度强化学习、决策和控制

cmu_rob831_fall

高级机器学习(AML)课程项目启动代码

数据分析与人工智能课程考试项目起始代码

毕业论文

CS285 的最终项目代码库:加州大学伯克利分校的深度强化学习

CS285-Research-Project

HPC_3

使用 KNN 算法根据观察结果预测动作

一个利用强化学习、线性代数和机器人技术概念的实践项目

2022/2023 自主代理课程练习

CS 285 家庭作业:深度强化学习

CIFAR-10-练习

CS285 - 深度强化学习资料

伯克利 CS 285的作业:深度强化学习、决策和控制

策略梯度

ELEC-E812课程作业

用于 CS 391R 课程项目的击球机器人

ÚFAL 课程 NPFL122

伯克利 CS 285的作业:深度强化学习、决策和控制

任务

基于物理的乒乓球

空气曲棍球挑战赛其他其他2其他3

2023年空气曲棍球挑战赛

可用于开发机器人 3D 装箱问题的求解器的gym环境

测试 RL 在量子控制中的应用 - 特别关注电路级和脉冲级门校准任务

用于机器人插入任务的 MuJoCo 模拟

多任务机器人学习

与 ROS NIAS-API 类似的 CoppeliaSim 机器人模拟器的绑定

实现 DDPG 进行简单的倒水

竞技体育的两步法:以击剑为例

曲棍球环境中的强化学习

一个用于自动生成伸手动作以抓取扁平电缆连接器插入姿势的环境

研究如何训练自适应人机界面,以在获得良好控制的同时最大限度地减少用户交互

赛车v2

深度Q学习解决俄罗斯方块模拟器

空气曲棍球锦标赛

汽车人 VIP 的基于视觉的操控探索

使用 UR5e 机械臂和 Robotiq 2F-85 夹持器来操纵柔性物体

倒立摆强化学习

包含三足步行机器人的硬件、电气和软件组件

通过双手灵活性掌握钢琴演奏技巧

使用 GraphDB 作为内存的聊天机器人示例

曲棍球环境

防止赛车冲出赛道。在最少的步数内完成比赛

自动驾驶汽车SoC

使用 Panda 的非常简单的 MuJoCo 拾取和放置任务

三足蚂蚁

使用 NEAT RL 算法解决 ATARI Retro Pong

蚂蚁六腿环境

在 iCub 人形机器人上重现与 RL 项目相关的灵巧操作实验的代码

空气曲棍球挑战赛的源代码

山地车强化学习

DRL_Taxi_Custom

工业机器人机械手(KUKA KR16-2)接住发出的网球

使用凸模型预测控制(MPC)的四足动物运动的 Python 实现

激光曲棍球环境中的 SAC 代理

基于深度学习的代理使用 GUI 玩贪吃蛇游戏

使用 MyCobot 的机械臂任务强化学习框架

通过深度强化学习灵巧地弹奏钢琴

无人机

基于四旋翼飞行器的 RL 环境代码

使用 RL 和低级控制器控制四轴飞行器

添加新环境:四旋翼飞行器

四旋翼飞行器利用钩式机械手抓取和运输有效载荷

飞行和漂浮模型,例如四旋翼飞行器、悬挂有效载荷的四旋翼飞行器等

无人机RL

通过遗传算法改进滑翔机的设计

无人机仿真

四轴飞行器有效载荷抓取与运输轨迹规划与控制设计

四轴飞行器

平台

Gym - 用于开发和比较强化学习算法,它提供了一个用于在学习算法和环境之间进行通信的标准 API,以及一组兼容该 API 的标准环境。已迁移至 Gymnasium

Agility Robotics 的 Cassie 机器人的 mujoco 模拟因尽可能快地向前行走/奔跑而获得奖励 - 其他

在本地、Slurm 和 GCP 上运行 RL 代码

开发用于机器人任务的 RL 代理的环境

可定制的多用途生产系统框架

基于MuJoCo的多平台、模块化机器人仿真框架 - 主要用于机械臂的强化学习和控制算法实现

人机交互学习(HILL)和多智能体强化学习(MARL)研究平台

包含 REINFORCE、AC2、SAC 和 PPO 等热门算法的实现,并集成到 Gymnasium 环境

七种机器人模型、八种夹爪模型、六种控制器模式和九种标准化任务

ReDMan 是一个开源模拟平台,为可靠的灵巧操作提供了安全 RL 算法的标准化实现

Ray 由一个核心分布式运行时和一组用于加速 ML 工作负载的 AI 库组成

Jax 中实现的强化学习算法集合

机器人学习的统一框架

一种多功能模块化框架,使用框图方法运行/模拟动态系统

在加速器硬件上进行大规模并行刚体物理模拟

通才generalist

工具

将 URDF 模型转换为 MJCF 模型的实用工具

基于 Web 的模拟环境可视化工具

一个基于 C++ 的批处理环境池 EnvPool - 基于 C++ 的高性能并行环境执行引擎(矢量化环境),适用于通用 RL 环境

用于强化学习的机器人模拟环境集合

用于处理MuJoCo Python 绑定和dm_control 的实用程序

通过潜在想象力进行学习的行为

Mechcat Mujoco 查看器

加速多智能体强化学习的程序环境生成

流行的 DRL 算法的简单实现

SERL:用于样本高效机器人强化学习的软件套件

为许多有用的机器人库提供通用 API

使用 OpenAI gym 的强化学习示例集合

基于 GPU 加速模拟的内部工具

一个用于优化的 Python 库,面向模块化机器人和进化计算

深度强化学习算法和环境的 PyTorch 实现

reboot-toolkit

unfaithful-cot-replication

结构化的模块化设置,用于使用 Ray RLlib 库训练强化学习 (RL) 模型

用于机器人操作的模块化接口

统一原生 MuJoCo (MJC) 和 MuJoCo-XLA (MJX) 中实现的环境的开发和接口

专注于快速构建 DQN 模型原型

包含几个具有正定成本函数的 gym 环境,旨在与稳定的 RL 代理兼容

Transformer (TIT) 中 Transformer 作为深度强化学习骨干的官方实现

cleanrl 具有研究友好特性的深度强化学习算法的高质量单文件实现(PPO、DQN、C51、DDPG、TD3、SAC、PPG) - 其他其他2其他3其他4其他5其他6其他7

基于 OpenAI 的 RL 库

提供了一个用于在学习算法和环境之间进行通信的标准 API

包含 Google Research发布的代码

为硕士论文项目的开发和一些研究活动提供环境

RL-Bandits

适用于 ML 和 AI 项目/实验的实用小模板

用于开发和比较强化学习算法的工具包

使用 Unity ML-Agents (AI) 进行深度强化学习的 3D 包装

一些基于 MuJoCo 物理引擎构建的 (C/C++) 示例和扩展

Mujoco Deepmind 的 Python 绑定中存储库mujoco_panda的实现

另一个 Python RL 库

深度强化学习算法的简单单文件实现

PyTorch 中基于模型的强化学习的最小库

标准化机器学习的集成中间件框架

用于将MJCF(MuJoCo 建模格式)机器人模型文件中的有限元素转换为 URDF 的脚本

OpenAI Gym 环境使用 pybullet 来制作Tyrannosaur

通用人工智能实验室开发的容器

强化学习库之间的互操作

Mujoco并行模拟

现代机器学习论文的实现,包括 PPO、PPG 和 POP3D

机器学习和数据科学的附加软件包

Emei 是一个用于开发因果强化学习算法的工具包

YAROK - 另一个机器人框架

JAX(Flax)实现具有连续动作空间的深度强化学习算法

用于处理 MuJoCo 中使用的复合 Wavefront OBJ 文件的 CLI

用于执行无梯度优化的 Python 工具箱

杂项

InterGP - 收集数据、训练代理的流程

ACM AI 所有研讨会内容代码等的存储库 - 内容按季度组织

Docker Wiki 和示例

ClearML_SCHOOL

一个最小(但独立)的 MuJoCo 模拟器来运行模拟

微电网的 IRIS 代码

使用 mujoco 进行 DOQ 模拟

使用 GP 作为探索指标

高级软件实践

DRL-AirHockey - 其他1

RoboDog项目

network-plasticity

many_gamma

231A_project

cs340lab4

强化学习研究

rl_learning

DPC_for_robotics

talar-openreview-fork

pytorch-TD3fG-fast

symmetry-cs285-2

training-gym

尝试实施强化学习

S7-RL

clean-jax-rl

SIMCSUM

mb-强化

CQLEnsemble

factored-rl-ppo-handson

oc-jax

漩涡示例

rl-cbf-2

GCPrior

sb3-mujoco-2

Reinforcement-Learning-2023

Prism

rep_complexity_rl

CustomGymEnvs

游戏AI

更新 D4Rl 以获取最新的 Gymnasium API

planseqlearn

人工生命环境

简单的独立平面推动焦点示例

rl_learning

强化学习实验

kics_rl_lab

Gym 环境解决方案

gym 的安全价值函数

CQL_sepsis

长期记忆系统

OCMR

HybridSim

关键用户旅程(CUJ)

orax

MAZE

safetyBraxFramework

旅游预测项目

InfusedHKS

mario-icm

inctxdt

web3env

T-AIA-902

rl_air-hockey_telluride

panda_robot

Praktikum

VKR

crow

CRA_push

包含数据集处理、遗传算法、神经网络等

RLproject

展示了平面二维机器人,但可以立即将其推广到空间三维机器人

p8_sewbot

smarts_git

一个沙盒仓库

eth-rl

用于 SRL 实验室实践的 Jupyter 笔记本

Demo 282 Guarrera

crazyflie_backflipping

强化学习实验

gail_demo

npds-workspace

Advanced_Software

Reinforcement-Learning

fyp_v1

模块化部署

玩具 ML 项目

skill-basedGCRL

ML/DL/CS 领域的一些工作清单 - 包括基于 GAN 的图像生成、物体检测、神经机器翻译、相似性和度量学习、语音转文本、文本转语音

CHTC 上的 Mujoco

从各种来源尝试的实践课程

这是Spinning Up的一个克隆版本,目标是使用最新的 PyTorch 版本

TradeMasterReBuild

Fast Campus 强化学习

Reddit 评论机器人是一个基于 Python 的自动回复器

一些强化学习的算法 - 使用的环境是Windows10上的Python 3.10

Gym的欠驱动机器人