具身人模拟

人
- 人的建模
Mujoco
ROS
强化学习
感知
- 触觉
规划
控制
测试
数据
大模型
建模
研究
竞赛
教程
学习
任务
- 无人机
平台
工具
杂项

肌肉骨骼人

使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境 - 包含在 OpenAI gym API 中

将 opensim 4.0+ MSK 模型转换为 MuJoCo 格式的工具 - 具有优化的肌肉运动学和动力学

使用“双 DQN 强化学习”来解决肌肉骨骼任务

比赛ENG-ME951-MyoChallenge2023 - 即DEP-RL：过度驱动和肌肉骨骼系统中强化学习的具体探索

计算出遵循约束条件的最可能路径

在MuJoCo中建模和模拟人机交互任务 - 用户采用具有感知能力（例如自我中心视觉）的肌肉驱动生物力学模型进行建模，并通过强化学习进行训练以解决交互任务

仿生机器人测试平台

用户采用具有感知能力（例如自我中心视觉）的肌肉驱动生物力学模型进行建模，并通过强化学习进行训练以解决交互任务 - 其他

具身智能体的脑-身同步探索

利用肌肉学习：拟人化任务中数据效率和鲁棒性的优势

基于强化学习的运动模仿，实现生理上合理的肌肉骨骼运动控制

利用强化学习模拟双足站立和平衡

在 MUJOCO 和 Isaac Gym 中模拟 SMPL/SMPLX 人形机器人

支持 PDP 论文中的扰动恢复任务

从任意跌倒状态起身 - 其他

MyoChallenge 保定球策略分析

具有内部复杂性的网络模型架起了人工智能与神经科学的桥梁

LocoMuJoCo是一个专门针对运动的模仿学习基准。它涵盖了多种环境，包括四足动物、两足动物和肌肉骨骼人体模型

训练和比较人形 AI 代理完成1v1 近战

使用 MuJoCo 和 Gym 重新实现的 DeepMimic 控制框架

行走

探索与行为相关的神经网络 - 模仿行为来模拟大脑

sin-cassie-rl-python

使用 Brax 和 MJX 实现啮齿动物模仿学习的 VNL 实现

双足步行者的Gym环境

PACER：行人动画控制器

MIMo是一个用于研究婴儿认知发展的平台 - 使用MuJoCo进行物理模拟的 gym 环境以及多个可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成。其他

机器人学习的模块化仿真框架和基准 - 包括人形机器人

使用 mujoco 和类人神经机械模型（而非人形机器人）实现 DeepMimic

带有通用规划器的 H-GAP 人形控制代码发布

仿生机器人

构建意识与决策机制

单变量径向基函数层：受大脑启发的低维输入深度神经层

用于机器人、深度强化学习和神经科学研究的 Python 工具

人的建模

OpenSim 肌肉骨骼模型转到 MuJoCo

使用肌肉骨骼模型创建 x2 外骨骼模型（模拟人类佩戴外骨骼的真实情况）

MyoSuite是使用MuJoCo物理引擎模拟的肌肉骨骼环境和任务的集合

用于研究婴儿认知发展的平台 - 可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成

用于分析人手样本钳式抓握执行情况的机器人测试台的设计和实现

伯克利人形机器人精简版

使用 ODE、PhysX 或 MuJoCo 后端的肌肉骨骼建模系统

为 OpenManipulator-X 绘制机器人代码

MorphVSR：基于体素的软机器人模拟与协同进化框架

Menagerie是MuJoCo物理引擎的高质量模型集合

自适应膝关节动力学模拟

Menagerie：MuJoCo物理引擎高质量模型集合

Mujoco 机器人

官方的移动任务实现

层次世界模型实现人形全身控制

模仿学习基准专注于使用 MuJoCo 执行复杂的运动任务

全身控制的层次世界模型

MyoSuite - 使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境/任务的集合，并包含在 OpenAI gym API 中

将机器人送入家庭并收集数据

使用预测控制，通过 MuJoCo 进行实时行为合成

dm_robotics：为机器人研究创建和使用的库、工具和任务

通过将人体运动数据传输到机器人模型（Unitree H1），并应用逆运动学 (IK) 和潜在的强化学习 (RL) 等先进技术进行实时自适应，使机器人能够执行动态且自然的类人运动

ROS

乐聚机器人控制 - 包含 Mujoco 仿真环境

ROS 的人体模型

将 ROS 与 MuJoCo 结合使用的封装器、工具和附加 API - 支持 Noetic，- 其他 mujoco_ros2_control

车道跟随器与强化学习

Linkerhand ROS2 SDK

通过 ROS2 使用Dynamixel电机控制机械手

用于机器人强化学习端到端开发的工具

Aria 的 ROS2

使用 franka_ros2 和 mink 对 franka fr3 进行遥控（用于逆运动学）

只需从 ROS 2 发送目标关节角度即可在 Genesis 中控制机器人

基于 ROS2 的户外 SLAM 和自主导航

使用 Docker 构建 ROS2 运行环境

用于 AR4 机械手的 ROS 2 软件堆栈

基于单刚体模型的四足机器人模型预测控制器

利用深度强化学习实现仓库机器人导航

MuJoCo 的高性能 LiDAR 模拟

基于单刚体模型并用Python编写的模型预测控制器

unitree_mpc

基于 ROS 的功能包，主要围绕 Piper机械臂以及 Orbbec 深度相机等硬件的应用展开

利用 ROS2 MoveIt 任务构造器来控制 MuJoCo 中的 UR5e 机械臂和 Robotiq 2F-85 夹持器

online_hdif_ws

FTN 上开发的与 Solo 相关的所有内容的存储库

Faur 手控制

绳索和电缆操纵规划的拓扑表示

适用于 ROS 机器人的 FastRLAP 实现、相关的 Gazebo 环境，以及用于越野驾驶的 MuJoCo 环境

一款一体化 ROS 软件包 RoTools - 用于高级机器人任务调度、视觉感知、路径规划、仿真以及直接/远程操控。它利用 BehaviorTree 实现快速的任务构建和协调，并提供各种实用程序来弥合真实/模拟机器人与高级任务调度程序之间的差距。

强化学习

利用强化学习改进膝关节生物力学建模的新方法

使用 OpenAI Gym 环境的 xArm6 机器人强化学习框架 - 该模型使用深度确定性策略梯度(DDPG) 进行连续动作，并使用后见之明经验回放(HER)

OGBench 是一个基准测试，旨在促进离线目标条件强化学习 (RL)、离线无监督强化学习和离线强化学习中的算法研究 - 其他1

基于双视野模型的策略优化 (DHMBPO)

四足动物-斯坦福小狗文档和训练学习者

强化学习算法的最小实现及其他强化学习相关实验

ActSafe：强化学习中具有安全约束的主动探索

RL 控制和预测方法的实现（PyTorch 中的 DRL）

在 OpenAI Gym 环境中为超级马里奥兄弟实现强化学习 - 使用近端策略优化 (PPO) 算法

使用 Policy-Gradient 方法在 OpenAI-Gym 中训练代理

CQL_AWAC_ICQL

基于 DDPG Keras实现示例的 TD3

基于 PyTorch 构建的强化学习算法的实现 - 它已针对高负载工作负载进行了优化，后端支持 CUDA 和 OpenMP（取决于硬件可用性）

模块化单文件强化学习算法库

rl

保守 Q 学习 (CQL)

Pytorch 实现的 MuZero 用于 Gym 环境 - 支持动作空间和观察空间的任何离散、Box 和 Box2D 配置

基于 Tensorflow 的 DDPG 实现 - 使用 DVC 跟踪管道进行实验

使用深度 Q 学习训练一个代理，让它在一个大的方形环境中收集尽可能多的黄色香蕉

使用基于策略的方法解决 CartPole 问题

使用交叉熵的连续山地车

强化学习算法的清晰框架和实现

强化学习 RAINBOW 算法的部分（重新）实现

使用 REINFORCE 算法解决 CartPole

Transformer 作为深度强化学习的骨干

学徒强化第二阶段

使用 Gymnasium 简单实现 PPO

TD3

reinforcement_learning_dataframe_matching

基础设施目标条件强化学习者

基于OpenAI Spinning Up和Stable-Baseline3的 PPO 实现

通过基于强化学习的调度实现安全高效的多系统神经控制器

通过自适应策略正则化实现高效的现实世界强化学习，实现腿部运动

通过情景控制进行安全强化学习

通过随机模拟进行强化学习

基于模型的 RL 算法 PlaNet 的 PyTorch 实现

用于样本有效目标条件强化学习的度量残差网络

DQN

扩展深度 Q 网络模型以支持多模态输入

将各种改进与强化学习算法相结合 - 试图遵循三个关键原则：数据效率、可扩展性和更快的训练速度

基于深度 Q 网络的 TensorFlow 2 强化学习实现

Atari 2600 游戏深度 Q 网络算法的重新实现及对比分析

在不同的环境下研究（深度）Q 学习算法并测量我们代理的性能

隐式 Q 学习泛化能力评估

麦克劳林扩展极限 Q 学习 (MXQL)

双重和决斗 Q 学习，结合优先经验回放缓冲区和内在好奇心模块，用于 Atari 游戏的强化学习

基于视觉的端到端机器人抓取，使用 DQN 在 mujoco 环境中进行训练

PyTorch 中的隐式 Q 学习 (IQL)

在 lunarlander 和 bipedalwalker 上测试的 DQN 和 DDPG 的 PyTorch 实现

targeted-double-q-learning

Q学习在二十一点中的应用

重症监护应用的多准则深度 Q 学习

面向重症监护应用的安全领域知识辅助深度强化学习

dqn-探索-集成

targeted-double-q-learning

使用 OpenAI gym 环境训练 DQN 的简单脚本

DQN_AC

AC

软动作者-评论家：基于随机动作者的离线策略最大熵深度强化学习

用于机器人环境交互任务的演员-评论家模型预测力控制器的实验验证

SAC

使用Pytorch实现优化的SAC算法

使用 mypy 输入软行动者-评论家 (SAC) 算法

对安全强化学习的软演员-评论家 (SAC) 算法的修改，结合概率推理来强制执行安全约束，同时保持有效的探索

强化学习软演员评论家算法教程

JSAC 是一个基于软演员-评论 (SAC) 的强化学习 (RL) 系统，旨在实现高性能且稳定的图像学习

质量-多样性行动者-评论家：通过价值和后继特征评论家学习高性能和多样化行为

UE5 SAC

针对 CS285 的深度 Q 学习、Actor Critic 和 Soft Actor Critics 算法的实现

自软演员-评论家的 SAC 的确定性变体：具有随机演员的离线策略最大熵深度强化学习

实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础

实现的主要算法是 Soft Actor-Critic (SAC)

强化学习的数学基础项目 03 - 连续控制

PPO

ppo-mujoco

为 Cassie 机器人重新实现 PPO 算法

RNN + PPO pytorch 实现

人工生命模拟器 - 结合了 PPO 和进化算法

训练 PPO 代理学习Cart Pole 游戏

在 OpenAI gym 中从 Ant-v4 环境衍生的自定义环境中实现 PPO，以学习穿越模板障碍

多智能体

个别奖励扶助的多智能体强化学习

多任务参与者评论家学习

JAX 中的分布式多智能体强化学习

用于合作多智能体强化学习的 E3-等变演员-评论家方法

INS：交互感知合成，增强离线多智能体强化学习

MARIE - 多智能体自回归想象高效学习

通过智能信息聚合实现可扩展（且强大？）的多智能体强化学习

DoF：用于离线多智能体决策的扩散因子分解框架

MADiff：基于扩散模型的离线多智能体学习

PyTorch 和 Ray 用于分布式 RL

模仿学习

7 自由度机械臂拾取和放置，具有模仿学习功能

通过语境翻译进行观察模仿 - 一种基于演示训练代理模仿专家的算法

多任务模仿学习

从人类示范中学习操纵技能

克服知识障碍：通过预训练世界模型进行观察的在线模仿学习

通过精确标记的人类演示进行模仿学习

TamedPUMA：利用几何织物进行安全稳定的模仿学习

250美元机械臂的模仿学习

克服知识障碍：利用预训练世界模型进行视觉观察的在线模仿学习

通过人类远程操作实现人形机器人的深度模仿学习

通用模仿学习的进化策略

模仿引导强化学习

扩散状态和匹配分数：模仿学习的新框架

JAM：使用 TM12 机械臂进行模仿学习

KOI：通过混合关键状态指导加速在线模仿学习

使机械臂模仿另一只手臂的方向

JAM：使用 TM12 机械臂进行模仿学习

AdaFlow：基于方差自适应流策略的模仿学习

使用基于 iPhone 的低成本机械臂远程操作进行模仿学习

通过模仿行为来理解大脑

Milo 是一个 Python 库，旨在简化强化学习 (RL) 和模仿学习 (IL) 任务

利用扩散模型作为高表达性的策略类别，用于行为克隆和策略正则化

模仿预训练

模仿学习

柔性机器人非线性模型预测控制的安全模仿学习

Imitation-Learning

graph_offline_imitation

易于运行的模仿学习和强化学习框架

四足动物行为克隆实验

通过行为学习进行观察模仿

分层强化学习

使用 Pytorch、OpenAI Gym 和 Mujoco 进行机器人分层强化学习

hierarchy_Reinforcement_Learning

分层强化学习

使用 Kinova 臂进行分层 RL，在桌面上解决汉诺塔问题

修改为支持带有步骤（动作，目标）的分层学习

分层元强化学习

Grid World中的分层强化学习 (HRL)方法

通过分层强化学习重新思考决策转换器

通过逆向优化实现离线分层强化学习（OHIO）的正式实现

通过关键节点调整子目标以实现离线分层强化学习

分层隐式 Q 学习

测试稳定比例微分控制器中 mujoco 的 SPD 实现

分布式强化学习

学习竞赛：分布式强化学习与优化

强化学习的高性能分布式训练框架

Stellaris：基于无服务器计算的陈旧感知分布式强化学习

RIZE：通过分布式强化学习进行正则化模仿学习

在 Hadoop 集群中使用 Ray 和 RLlib 进行分发的预部署

具有重要性加权参与者-学习者架构的可扩展分布式深度强化学习

离线强化学习

离线强化学习算法 - 其他1 、其他2 、其他3

从完全离线策略数据中学习

使用新颖的 Hyena 连续卷积核作为 Transformer 的替代方案，以便在离线强化学习中高效地捕捉长距离依赖关系

使用 Transformer 模型的离线训练在元学习环境中执行上下文强化学习

Unifloral：统一离线强化学习

通过 Tsallis 正则化进行离线强化学习

可行区域自限制：离线强化学习中策略优化的新方法

基于扩散模型的离线强化学习约束策略搜索

基于可行性引导扩散模型的安全离线强化学习

OGBench：离线目标条件强化学习基准测试

离线强化学习作为一个大序列建模问题的代码发布

HIQL：以潜在状态为行动的离线目标条件强化学习

符合道德规范的 rl

使用封闭式策略改进算子的离线强化学习

离线深度强化学习中的数据集审计

Soft Actor-Critic 中的 SAC：基于随机参与者的离线策略最大熵深度强化学习

逆强化学习

通过贝叶斯心理理论进行稳健逆强化学习

机器人手部操作任务的逆向强化学习

利用逆向强化学习简化约束推理

CleanIL 是一个深度模拟和逆向强化学习库

包含逆向强化学习算法的 JAX 实现

Inverse_RL

元强化学习

评估复杂任务分布中的元强化学习算法

解决元强化学习中的上下文解耦问题

约束元强化学习，用于可微分凸规划的自适应安全保障

人人皆可学习的元学习

元学习是一种可进化的编码发展

PAC-贝叶斯离线元强化学习

模型不可知元学习（MAML）应用于强化学习

Meta QLearning 实验优化机器人步行模式

Meta-World 是一个开源的元强化学习和多任务学习模拟基准，包含 50 个不同的机器人操作任务

利用潜在动力学进行元强化学习的任务信念相似性学习

利用概率推理和元学习解决持续长期规划问题

Meta-World 是一个开源基准，用于开发和评估用于连续控制机器人操作环境的多任务和元强化学习算法 - 其他1

基于技能的领域转移元强化学习

元强化学习的进化储层

具有稳健分布在线任务自适应的成本感知离线安全元强化学习

元学习好奇心算法

Optm-MetaRL

分布式分层元强化学习器

感知

肌肉骨骼轨迹追踪

物体检测与追踪

双手操作的人类视觉

利用物理运动定律从二维标签学习单目三维物体定位

利用“任何事物分割”模型进行通用视觉强化学习

盲文识别

探索双手机器人操作中的主动视觉

在 Atari Pong 游戏上使用各种视觉模式训练和评估不同的深度强化学习代理

动作捕捉环境

模拟具身智能体同时发展眼部形态和神经处理的环境，揭示了视觉系统进化的复杂过程

触觉

证明在抓取的软捕获阶段使用触觉传感器的重要性

配备视觉和触觉感知的 MuJoCo 机器人环境集合

通过技能库和触觉表征进行语义-几何-物理驱动的机器人操作技能转移

通过在触摸传感器之间进行跨模态预测

通过虚拟手与可变形物体进行交互和抓取，以增强手术模拟效果

M2VTP 是一个专为视觉-触觉融合而设计的预训练网络

基于胡须的触觉导航系统

基于指尖接触感知采样的抓取生成器

VTDexManip：用于视觉触觉预训练和基于强化学习的灵巧操作的数据集和基准

训练 Shadow Hand 机器人在 MuJoCo 模拟中操控笔

使用 NeuroMechFly v2 模拟果蝇具体感觉运动控制 - 包括生嗅觉、腿部粘附等

通过触觉反馈遥操作系统双手机器人的几个演示来学习变量柔顺控制

通过 ROS 集成，在 MuJoCo 中对 DexRobot 手进行触觉模拟 - 支持 MuJoCo 原生触摸传感器和 TaShan 11 维触觉传感器，有视频效果

一个关于连接触觉设备、VR 耳机和物理模拟以模拟可变形物体的实时触摸的研究项目

规划

分层世界模型能够实现跨多个时间尺度的推理

使用基于激光的感知在 MuJoCo 环境中实现人机感知移动机器人导航的强化学习框架

外展机器人学习决策

使人工智能能够像处理人类语言一样解释和规划机器人行为

CIST-GCN：可解释的人体运动预测

MoCapAct和dm_control的扩展，用于避障任务

使用 Graph Transformer 规划装配序列

虚拟工厂环境中的自主Transpalet导航项目

通过物理模拟实现手与物体交互的稳定姿态估计

风险感知深度强化学习在机器人群体导航中的应用

动作稳健决策transformer

通过对不确定道路系统进行持续数据收集来进行路线优化 - 包裹递送算法，使其能够在更新道路系统信息的同时安排递送。

用于欠驱动机器人手的硬件/软件协同优化

控制

一种基于视觉模型的强化算法 Dreamer - 它学习一个世界模型，该模型从高级像素图像中捕捉潜在动态，并完全在从学习到的世界模型中想象的部署中训练控制代理

基于对比示例的控制

机器人蛇形运动

MPC_MBPO

为 Franka Emica Panda 机械手实施的模型预测控制

基于强化学习的双轮足平衡机器人控制

基于 RL 的 6 自由度机械臂逆运动学控制

眼动视觉伺服系统

连续控制算法的基本实现

学习使用 2-DoF 夹持器进行力控制

通过在连接每条腿的两个连杆和躯干的八个铰链上施加扭矩来协调四条腿向前移动

探索关节空间中潜在地标

用于调试应用于 mujoco 模型的控制器实现

简化 Mujoco 中机械手的设置和控制

CMU 16-831 机器人学习简介的作业

带手掌的四轴控制器，包括 RL 控制器和 IK 控制器

Kinova Gen3 机器人控制

如何更改加载模型中指定的执行器

为 Allegro Hand（一款拥有 16 个独立可控关节的机械手）实现了比例积分微分 (PID) 控制器

利用强化学习和 VAE 控制千足虫

刚体操作

倒立摆 - 使用基于优化的操作空间控制来跟踪双摆的末端执行器位置

测试

评估了 RL 领域的特征提取

l2r 基准测试

Mujoco测试平台

用于测试/评估 mujoco 物理模拟器的沙盒

将Humanoid-gym框架评估其他人形机器人（以H1为例）

offline_rl_benchmark_by_argo

验证gymnasium_roboticsmujoco 环境的 MuJoCo 模型变化 - 其他

rl-test

CQL，PDQN，离线RL评估

使用来自 4 个种子的 Mujoco Benchmark 结果对 SAC、TD3 和 TD7 进行 pytorch 实现

专注于使用稳定基线 3方法和Gymnasium界面进行目标条件强化学习 - 其他

GUARD ：通用统一安全强化学习开发基准

d4rl-slim-benchmark

mujoco_test

TEST

Safety-Gymnasium：统一的安全强化学习基准

使用 PyTorch 的 functorch 的稳定基线

l2r 基准测试

针对机器人操作的基准测试集

数据

用于模拟人形控制的多任务数据集

使用 MuJoCo 生成的数据集的 NeRF 的 Pytorch 实现

包含 Machines in Motion 实验室中使用的机器人描述

R2D2：住宅机器人演示数据集

域随机化示例

MimicGen：使用人类演示的可扩展机器人学习的数据生成系统

大模型

利用言语纠正来提升机器人在执行复杂的长期任务时的表现

利用人类反馈实现大型语言模型的奖励进化

通用机器人和具体化人工智能学习的生成世界

面向长远强化学习的 LLM 分解和奖励设计

探究在定制机器人形态上进行微调时视觉-语言-动作模型的约束

TinyVLA：机器人的视觉-语言-动作模型

RoboMoRe：基于 LLM 的机器人协同设计，通过形态和奖励的联合优化

VLA-Cache：通过机器人操作中的自适应令牌缓存实现高效的视觉-语言-动作模型

用大型语言模型 (LLM) 进行感知、规划和动作生成

微调视觉-语言-行动模型：优化速度和成功率 - 其他

BadVLA：通过目标解耦优化对视觉-语言-动作模型进行后门攻击

具有内在空间推理的视觉-语言-行动模型

反射规划：多阶段长视界机器人操作的视觉语言模型

评估视觉-语言-动作（VLA）模型的泛化能力

OneTwoVLA：具有自适应推理的统一视觉-语言-动作模型

使用了 langchain 与 ROS2（or TCP），基于提示工程对机器人操作方面的提示词内容进行了设计

微调视觉-语言-行动模型：优化速度和成功率

使用 Robomimic 进行 LLM 引导拾放

使用大型语言模型进行模仿学习的模拟数据集生成

VLA-RL：通过可扩展强化学习实现精通通用的机器人操作

反馈就是你所需要的一切吗？在目标条件强化学习中利用自然语言反馈

基于流的扩散视觉-语言-动作模型

ImagineBench：通过大型语言模型评估强化学习

通过 Q 学习为 LLM 代理提供零样本最优决策能力

TeaMs-RL：通过强化学习教授 LLM 生成更好的指令数据集

TinyVLA：面向机器人操作的快速、数据高效的视觉-语言-动作模型

LAVIS——语言视觉智能库

利用大型语言模型促进机器人的运动控制

多 LLM 重复采样可有效扩展测试时间计算

用于协调双手机器人的大型语言模型

释放预训练语言模型的力量，实现离线强化学习

视觉语言行动模型

基于 LLM 的自主机器人导航控制

Text2Reward：利用语言模型进行强化学习的奖励塑造 - 其他

Dita：用于通用视觉-语言-行动策略的缩放扩散变换器

基于 13 亿 3D 点云的语言-视觉运动策略

DexVLA：带有插件扩散专家的视觉语言模型，用于视觉运动策略学习

InCLET：大型语言模型上下文学习可以提高具体指令遵循能力

利用自然语言反馈进行强化学习

实现 RoCo：具有人类参与的大型语言模型的辩证多机器人协作 (HITL) - 其他

可使用设备上的 Whisper 和 Llama 语音控制机械臂

潜在奖励：情景强化学习中的 LLM 赋能信用分配

使用大型语言模型和强化学习对 Mastermind 奖励函数进行进化优化

教授具身强化学习代理：语言使用的信息性和多样性

将 ChatGPT 集成到机器人控制过程中，以实现零样本规划和控制

使用 3GPP 文件微调不同的 LLM

大型语言模型项目想法

为 ChatGPT 提供工具以使其具备空间推理能力

使用大型语言模型提示机器人行走

机器人技能合成的语言到奖励

RoCo：具有大型语言模型的辩证多机器人协作 - 其他

扩大规模并精简：语言引导的机器人技能习得

建模

iGibson：在大型真实互动场景中训练机器人的模拟环境

支持 Humanoid-v5 MuJoCo 环境

获取机器人 URDF

Human-Robot Gym 是一个用于安全人机协作的训练环境

Menagerie是MuJoCo物理引擎的高质量模型集合

捕获机器人的点云

利用通用强化学习算法，在给定环境中教导和控制机器人完成给定任务

包含用于MuJoCo模拟的Andino MJCF模型

复杂高保真环境中的高效机器人模拟

为 Atlas 机器人提供了 mujoco 和 URDF 模型

SPEAR：用于逼真的具身人工智能研究的模拟器

humanoidgym 适用于 alexbotmini 并适用于 alexbotmini_sim2real

Mujoco Gym 四足运动环境

MuJoCo 的 3x3x3 拼图立方体模型

主动视觉强化学习的环境集合

通过可微分因果发现缩小模拟与现实之间的差距

仿生鼠机器人跨越多种地形工作

跳跃机器人使用MuJoCo研究跳跃机器人腿部机构设计

包含 Solo-12 四足动物的完整 MuJoCo 模型，包括高保真视觉效果

使用MuJoCo研究跳跃机器人腿部机构设计

模拟机器人环境，用于评估对基本物体重新排列的物体操作方法

使用变分自编码器 (VAE) 和生成对抗网络 (GAN) 等深度学习人工智能算法，可以使用训练数据集自动创建新的游戏内容

利用 Franka Manipulator 在 MuJoCo 中实现的开源强化学习环境

用于 RL 的生成细胞自动机类学习环境

用于评估强化学习代理的适应和探索的环境

CoLeCT 项目的 MuJoCo 模拟环境

IsaacGym 环境示例 KukaTwoArms

CathSim：一种用于血管内介入的开源模拟器

使用 Kinova Gen3 机器人学习简单任务

扩展控制器环境 - 包括推车上的倒立摆、弹簧加载倒立摆

可以前进、后退、跳跃和绕自身旋转的立方体

固定在矢状平面中的 MuJoCo 和 URDF 模型，用于研究腿式机器人的算法

使用 V-HACD 将凹网格分解为凸包来创建 MJCF 模型

使用随机生成的障碍物训练机器人

基于深度强化学习的 Next-Best-View 方法，用于未知对象重建

用于训练四足机器人的gym

建筑物内的测试环境的 3D 模型

研究

开发考虑人类偏好的机器人系统

在机器学习机制可解释性方面的工作

低质量数据的零样本强化学习

一个策略运行所有策略：多体现运动的端到端学习方法

交互信息技能学习的分析与要素 - 其他

DIME：基于扩散的最大熵强化学习

研究世界模型中时空信息的理解

解开的世界模型：学习从分散注意力的视频中迁移语义知识以进行强化学习

谷歌研究库

通过强化学习和域随机化实现 Hopper 控制的模拟到现实迁移

基于相位减少的六足机器人步态转换的中央模式发生器网络

意识浮现

可解释强化学习的策略梯度方法与决策树的比较

可扩展持续强化学习的自组合策略

DeGuV：深度引导的视觉强化学习，用于操作中的泛化和可解释性

基于能量的正则化流的最大熵强化学习

CompetEvo：从竞争走向形态进化

利用信息素实现机器人自组织行为

学习执行长视界移动操作任务对于推动家庭和工作场所机器人技术的发展至关重要

预训练以机器人为中心的世界模型以实现高效的视觉控制

混合可微分模拟：通过数据改进实际部署

对称强化学习损失用于不同任务和模型尺度上的稳健学习

用机械可解释性研究 OthelloGPT 世界模型学习

通过熵最大化实现域随机化

通过最大化证据进行行动推断：通过世界模型进行观察的零样本模仿

通过因果知识提高任务无关探索的效率

信念状态编码器/解码器 - 似乎产生了一种可与波士顿动力手工算法（四足动物 Spot）相媲美的策略

包含SoftGym环境的基准算法

使用随机模拟部署保证机器人系统性能

用轨迹解释 RL 决策

进化机器人 Python——脑体协同优化框架

通过自适应情境感知策略实现强化学习中的动态泛化

基于模型的状态扩散器，用于样本高效在线强化学习

通过人类反馈实现高置信度策略改进

强化学习中技能转移的分层启动源代码

Jax 中改进离线策略优化的宽松平稳分布校正估计

描述符条件强化学习 MAP-Elites

OPTIMUS：利用视觉运动变换器进行模拟任务和运动规划

从不平衡演示中进行半监督模仿学习

通过最大化证据进行行动推断：基于世界模型的观察零样本模仿

按复杂性和关节数量的递增顺序训练 MuJoCo 环境（Hopper、Half-Cheetah 和 Ant）的模型

METRA：具有度量感知抽象的可扩展无监督强化学习

从示例对象轨迹和预抓取中学习灵巧操作

解决情境强化学习的新方法

对于 safe_exploration 任务，既需要数据多样性，又需要在线训练安全保障

PyTorch 机器人运动学

用于模仿学习的记忆一致神经网络 - 其他1

TimewarpVAE：同时进行时间扭曲和轨迹表征学习

PyTorch 中时间对称数据增强（TSDA）的实现

JAX 中的在线策略梯度算法

好奇探索中的目标条件离线规划

基于像素观测的状态安全强化学习

带有注意力缓存和批量束搜索的轨迹变换器实现

深海宝藏问题中采用帕累托主导策略的多目标强化学习

TimewarpVAE：同时进行时间扭曲和轨迹表示学习

实验机器人操作代理的PLEX 架构的代码和说明

任意跌倒状态起身 - UE5

等距运动流形基元

用于离线策略评估的状态-动作相似性表示代码

基于注意力的排列不变神经网络框架的官方 PyTorch 实现

专为 Fanuc Robotiq 机械手设计的创新机械臂操控解决方案

反馈就是你所需要的一切吗？在目标条件强化学习中利用自然语言反馈

从多任务演示中学习共享安全约束

DeFog: 随机丢帧下的决策变换器

通过准度量学习实现最优目标达成强化学习

基于 DeepMind Control Suite 实现的具有对称性的 MDP 集合

研究 Transformers 1 层 Transformer 模型如何收敛到简单统计推断问题的贝叶斯最优解

利用多源工作负载知识促进指数顾问学习

引入基于评论家估计的不确定性抽样

提升 AI 对齐研究工程技能的资源 - 其他、arena-problem-sets 、 3.0

自适应强化学习的表征学习 - 使用可微分可塑性、状态空间模型和深度强化学习

具有大型语言模型的辩证多机器人协作

通过多任务策略提炼解决任务干扰

使用去噪扩散概率模型的轨迹生成、控制和安全性

合成经验回放 (SynthER) 是一种基于扩散的方法 - 可以对强化学习 (RL) 代理收集的经验进行任意上采样，从而大幅提升采样效率和扩展优势

受控的多样性与偏好：迈向学习多样化的所需技能

SNS-Toolbox 方法论文中关于不同类型优化的代码

解决 OpenAI Gym 中的神经元中间算法遗传算法的问题

从梦想到控制：通过潜在想象力学习行为，在 PyTorch 中实现

利用进化策略进化人工神经网络实现虚拟机器人控制

去噪 MDP：比世界本身更好地学习世界模型

深度强化学习中的首因偏差 - 深度强化学习代理的 JAX 实现，带有重置功能

基于近似模型的安全强化学习屏蔽

利用扩散模型作为高表达性的策略类别 - 用于行为克隆和策略正则化

构建目标驱动的具身化大脑模型

稳定神经近似的逆向经验重放 - 其他

奖励

规律性作为自由游戏的内在奖励

基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP

用示例代替奖励：通过递归分类进行基于示例的策略搜索的 pytorch 实现

毕业论文

利用 MARL 技术分解大动作空间来加速学习

硕士论文的所有脚本

教程

MuJoCo 模拟平台入门教程

Open AI Gym 基础教程

介绍机器人系统（主要为全驱动系统）控制的入门课程

原始源代码 Michael Hu 撰写的《强化学习的艺术》

强化学习教程

学习

伯克利 CS 285的作业：深度强化学习、决策和控制 - 其他1 、其他2 、其他3 、其他4 、其他5 、其他6 、其他7 、其他8 、其他9 、其他10 、其他11 、其他12 、其他13 、其他14 、其他15 、其他16 、其他17 、其他18 、其他19 、其他20 、

采样策略梯度扩展

一个专门用于学习使用 Half Cheetah 模型进行强化学习的存储库

面向初学者的深度学习资料

学习走路

用于试验模拟器以举办第二届人工智能大奖赛的存储库

CMU 16-831 机器人学习简介的作业

使用 JAX 实现各种学习算法的练习代码

cs285

由阿尔托大学 Joni Pajarinen 教授主讲的强化学习课

CS 285 最终项目：基于连续时间模型的强化学习中的动态学习的神经常微分方程

通过传统的机器学习方法和强化学习解决课程作业任务

CMU 16-831 机器人学习简介的作业

自己实现的深度强化学习算法

CS 285 最终项目：双人不完美信息合作博弈的强化学习

大学强化学习考试（9 CFU）材料的组成部分

2022 年高级机器学习 (AML) 课程项目的最终代码

CSCE-642：深度强化学习的作业

CS285-Final-Project

CMU 16-831 机器人学习简介的作业

关于 dm_control 的 AI 原理强化学习项目

RL相关项目 - 模仿学习、策略梯度

用于强化学习研究的快速且可定制的gym兼容零售店环境

本课程包括建模不确定性、马尔可夫决策过程、基于模型的强化学习、无模型强化学习函数近似、策略梯度、部分可观察的马尔可夫决策过程

使用 Gymnasium 和 Mujoco 构建强化学习的示例

cs285深度强化学习

解决Gym问题和其他机器学习实践

人工智能中心 2023 年春季项目的存储库

加州大学伯克利分校 CS285 深度强化学习 2022 年秋季

dm_control 的 AI 原理强化学习项目

关于机器学习和控制的笔记本

伯克利 CS 285的作业：深度强化学习、决策和控制

加州大学伯克利分校 cs 285 课程作业

伯克利 CS 285的作业：深度强化学习、决策和控制

CS234 最终项目

强化学习课程练习的实现

强化学习练习

伯克利 CS 285的作业：深度强化学习、决策和控制

USD-22Z-Projekt

CS 285 深度强化学习课程材料

IASD 硕士深度强化学习课程的作业 - 基于课程Berkeley CS 285：深度强化学习、决策和控制

伯克利 CS 285的作业：深度强化学习、决策和控制

伯克利 CS 285的作业：深度强化学习、决策和控制

CS285 的最终项目代码库：加州大学伯克利分校的深度强化学习

CS285-Research-Project

HPC_3

使用 KNN 算法根据观察结果预测动作

一个利用强化学习、线性代数和机器人技术概念的实践项目

伯克利 CS 285的作业：深度强化学习、决策和控制

策略梯度

ELEC-E812课程作业

用于 CS 391R 课程项目的击球机器人

ÚFAL 课程 NPFL122

伯克利 CS 285的作业：深度强化学习、决策和控制

任务

基于物理的乒乓球

训练一个通用策略来控制灵巧的机械手演奏任何歌曲

具有软腕部分可观测性的机器人装配的对称感知强化学习

使用深度强化学习训练守门员

足球机器人

清理厨房

使用强化学习来优化交通信号灯操作以最大化吞吐量

一个吉他演奏模拟系统，能够读取指法谱，并在训练后引导机械手弹奏吉他

RoboCasa：通用机器人日常任务的大规模模拟

在 Carla 中实现了原始的 td-mpc2 算法

DexFG通过少量演示学习多指手的类人功能抓握

使用深度强化学习训练桌上足球代理 - 其他

在现实世界中学习弹钢琴

EHoI：基于事件相机的任务导向手物交互识别基准

OGMP：Oracle 引导的多模式策略，实现敏捷、多功能机器人控制

使用基于脉冲神经网络的架构教四足机器人行走

基于多智能体强化学习的分布式自主交叉路口管理方法

基于 MuJoCo 的自主飞艇控制模拟环境，具有全面的域随机化支持

空气曲棍球挑战赛、其他、其他2 、其他3

2023年空气曲棍球挑战赛 - 其他

可用于开发机器人 3D 装箱问题的求解器的gym环境

实现 DDPG 进行简单的倒水

测试 RL 在量子控制中的应用 - 特别关注电路级和脉冲级门校准任务

用于机器人插入任务的 MuJoCo 模拟

使用基于贝叶斯优化的课程学习提高自主赛车深度强化学习方法的环境鲁棒性

迷宫

倒立摆

多任务机器人学习

与 ROS NIAS-API 类似的 CoppeliaSim 机器人模拟器的绑定

中国跳棋环境中，经过完整参数共享训练的 PPO 代理进行自我对弈

实现 DDPG 进行简单的倒水

竞技体育的两步法：以击剑为例

曲棍球环境中的强化学习

一个用于自动生成伸手动作以抓取扁平电缆连接器插入姿势的环境

研究如何训练自适应人机界面，以在获得良好控制的同时最大限度地减少用户交互

使用 UR5e 机械臂和 Robotiq 2F-85 夹持器来操纵柔性物体

倒立摆强化学习

包含三足步行机器人的硬件、电气和软件组件

通过双手灵活性掌握钢琴演奏技巧

Kikato 的灵巧钢琴演奏与深度强化学习

使用 GraphDB 作为内存的聊天机器人示例

曲棍球环境

防止赛车冲出赛道。在最少的步数内完成比赛

自动驾驶汽车SoC

使用 Panda 的非常简单的 MuJoCo 拾取和放置任务

三足蚂蚁

使用 NEAT RL 算法解决 ATARI Retro Pong

蚂蚁六腿环境

在 iCub 人形机器人上重现与 RL 项目相关的灵巧操作实验的代码

空气曲棍球挑战赛的源代码

山地车强化学习

DRL_Taxi_Custom

工业机器人机械手（KUKA KR16-2）接住发出的网球

使用凸模型预测控制（MPC）的四足动物运动的 Python 实现

激光曲棍球环境中的 SAC 代理

基于深度学习的代理使用 GUI 玩贪吃蛇游戏

使用 MyCobot 的机械臂任务强化学习框架

通过深度强化学习灵巧地弹奏钢琴

无人机

基于四旋翼飞行器的 RL 环境代码

使用 RL 和低级控制器控制四轴飞行器

添加新环境：四旋翼飞行器

四旋翼飞行器利用钩式机械手抓取和运输有效载荷

飞行和漂浮模型，例如四旋翼飞行器、悬挂有效载荷的四旋翼飞行器等

强化学习方法实现四轴飞行器的安全三维导航

无人机RL

RoVerFly：四旋翼飞行器-有效载荷系统的稳健且多功能隐式混合控制

使用 MuJoCo 为 Bitcraze Crazyflie 2 无人机定制的 OpenAI Gym 环境

仿生飞鼠机器人的计算机模拟和飞行优化

通过遗传算法改进滑翔机的设计

DroneSim2Sim：无人机的 Sim2Sim 传输基准

MuJoCo gym 的无人机执行各种活动。传感器包括：2 个摄像头（立体摄像头）、加速度计、陀螺仪

在 PyBullet 环境中模拟六轴飞行器（无人机），使用 YOLOv8 动态检测和统计人员数量

RL-UAV 是一个专注于无人机模拟的强化学习项目

MuJoCo 中的无人机模拟

在模拟环境中训练无人机，使其自主导航到目标拾取位置，从该位置拾取并运送到目标位置

Isaac Gym 无人机环境

无人机仿真

四轴飞行器有效载荷抓取与运输轨迹规划与控制设计

四轴飞行器

平台

Brax 是一种快速且完全可微分的物理引擎 - 其他1

MuJoCo 物理模拟器的 GPU 优化版本

使用 LLM 实现全自动具身模拟

人机交互强化学习套件

DORA（面向数据流的机器人架构）是一款中间件，旨在简化基于 AI 的机器人应用程序的创建。它提供低延迟、可组合和分布式数据流功能

一个基于 Flask 的综合 REST API 服务器，用于通过 MuJoCo 模拟或真实硬件连接控制软机器人

天寿：一个优雅的 PyTorch 深度强化学习库

EnvPool是一个基于 C++ 的批处理环境池，DGX-A100 上的 Mujoco 模拟器原始帧率约为 300 万帧

使用MuJoCo进行实时预测控制的交互式应用程序和软件框架 - 人形动作捕捉追踪，其他1、其他2

LeRobot 旨在用 PyTorch 为现实世界的机器人技术提供模型、数据集和工具 - 其他

Gym - 用于开发和比较强化学习算法，它提供了一个用于在学习算法和环境之间进行通信的标准 API，以及一组兼容该 API 的标准环境。已迁移至 Gymnasium

Agility Robotics 的 Cassie 机器人的 mujoco 模拟因尽可能快地向前行走/奔跑而获得奖励 - 其他

在本地、Slurm 和 GCP 上运行 RL 代码

机器人套件

允许用户通过网络浏览器与机器人互动

一个优雅的 PyTorch 深度强化学习库

开发用于机器人任务的 RL 代理的环境

robosuite是一个基于MuJoCo物理引擎的机器人学习模拟框架 - 其他2 、其他3 、其他4 、其他5

Google Cloud Platform 上的数据和 AI 平台

基于MuJoCo的多平台、模块化机器人仿真框架 - 主要用于机械臂的强化学习和控制算法实现

人机交互学习（HILL）和多智能体强化学习（MARL）研究平台

包含 REINFORCE、AC2、SAC 和 PPO 等热门算法的实现，并集成到 Gymnasium 环境

七种机器人模型、八种夹爪模型、六种控制器模式和九种标准化任务

ReDMan 是一个开源模拟平台，为可靠的灵巧操作提供了安全 RL 算法的标准化实现

Ray 由一个核心分布式运行时和一组用于加速 ML 工作负载的 AI 库组成

Jax 中实现的强化学习算法集合

机器人学习的统一框架

一种多功能模块化框架，使用框图方法运行/模拟动态系统

在加速器硬件上进行大规模并行刚体物理模拟

通才generalist

工具

MuJoCo 模拟、可视化和数据处理的综合工具包

将 robot urdf 文件转换为 mjcf 的工具 - 将 URDF 模型转换为 MJCF 模型的实用工具 - 其他

用于将MJCF（MuJoCo 建模格式）机器人模型文件中的有限元素转换为 URDF 的脚本

基于 Web 的模拟环境可视化工具

评估各种 DRL 算法在功耗和性能之间的权衡

Jax-Baseline 是一种使用 JAX 和 Flax/Haiku 库的强化学习实现，反映了 Stable-Baselines 的功能

强化学习工具包（RLTK）

将现实世界的坐标空间映射到模拟坐标空间

MLPro：集成多关节动力学与接触（MuJoCo）

Google DeepMind MuJoCo 的现代模拟包装器

Fast-UMI：一种可扩展且独立于硬件的通用操作接口

mink 是一个基于MuJoCo物理引擎的 Python 微分逆运动学库 - 其他

用于边缘 AI 和机器人的 CUDA 容器

将其组织在单个文件中来增强可读性

一个基于 C++ 的批处理环境池 EnvPool - 基于 C++ 的高性能并行环境执行引擎（矢量化环境），适用于通用 RL 环境

用于强化学习的机器人模拟环境集合

基于Onshape API，从组件中检索信息并构建适合物理模拟的机器人描述（URDF、SDF、MuJoCo）

Onshape 到机器人（URDF、SDF、MuJoCo）

机器人领域的扩散模型

用于处理MuJoCo Python 绑定和dm_control 的实用程序

通过潜在想象力进行学习的行为

可作为各种强化学习 (RL) 算法的实验场地

使用 MuJoCo 物理引擎执行系统辨识

BuildingGym 项目提供了一个 API，用于轻松训练适用于所有 EnergyPlus 环境的强化学习控制算法，并包含常见强化学习算法的实现：策略梯度、DQN、A2C、A3C 等

Dreamer 的干净 Python 重新实现

用于自动将动作捕捉添加到 mujoco xml 文件的工具

SERL：用于样本高效机器人强化学习的软件套件 - 其他

为许多有用的机器人库提供通用 API

MCPHC_old

使用 OpenAI gym 的强化学习示例集合

基于 GPU 加速模拟的内部工具

一个用于优化的 Python 库，面向模块化机器人和进化计算

深度强化学习算法和环境的 PyTorch 实现

reboot-toolkit

unfaithful-cot-replication

结构化的模块化设置，用于使用 Ray RLlib 库训练强化学习 (RL) 模型

用于机器人操作的模块化接口

统一原生 MuJoCo (MJC) 和 MuJoCo-XLA (MJX) 中实现的环境的开发和接口

专注于快速构建 DQN 模型原型

包含几个具有正定成本函数的 gym 环境，旨在与稳定的 RL 代理兼容

Transformer (TIT) 中 Transformer 作为深度强化学习骨干的官方实现

cleanrl 具有研究友好特性的深度强化学习算法的高质量单文件实现（PPO、DQN、C51、DDPG、TD3、SAC、PPG） - 其他、其他2 、其他3 、其他4 、其他5 、其他6 、其他7 、其他8

基于 OpenAI 的 RL 库

提供了一个用于在学习算法和环境之间进行通信的标准 API

包含 Google Research发布的代码

为硕士论文项目的开发和一些研究活动提供环境

RL-Bandits

适用于 ML 和 AI 项目/实验的实用小模板

用于开发和比较强化学习算法的工具包

使用 Unity ML-Agents (AI) 进行深度强化学习的 3D 包装

一些基于 MuJoCo 物理引擎构建的 (C/C++) 示例和扩展

Mujoco Deepmind 的 Python 绑定中存储库mujoco_panda的实现

另一个 Python RL 库

深度强化学习算法的简单单文件实现

PyTorch 中基于模型的强化学习的最小库

标准化机器学习的集成中间件框架

OpenAI Gym 环境使用 pybullet 来制作Tyrannosaur

通用人工智能实验室开发的容器

强化学习库之间的互操作

Mujoco并行模拟

现代机器学习论文的实现，包括 PPO、PPG 和 POP3D

机器学习和数据科学的附加软件包

Emei 是一个用于开发因果强化学习算法的工具包

YAROK - 另一个机器人框架

JAX（Flax）实现具有连续动作空间的深度强化学习算法

用于处理 MuJoCo 中使用的复合 Wavefront OBJ 文件的 CLI

用于执行无梯度优化的 Python 工具箱

杂项

仿生机器人

rl_project

weekend

InterGP - 收集数据、训练代理的流程

ACM AI 所有研讨会内容代码等的存储库 - 内容按季度组织

Docker Wiki 和示例

ClearML_SCHOOL

一个最小（但独立）的 MuJoCo 模拟器来运行模拟

PPO 和 Friends 是近端策略优化的 PyTorch 实现，同时还具有各种额外的优化和附加组件

实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础

DRL-AirHockey - 其他1

mt-world-model-pretraining

了解 Transformer 的研讨会

RoboDog项目

amr_fleet_offboard_infra_frontend

通过 10 个视觉变化因素扩展 Metaworld 环境

talar-openreview-fork

factored-rl-ppo-handson

Reinforcement-Learning-2023

更新 D4Rl 以获取最新的 Gymnasium API

rl_air-hockey_telluride

展示了平面二维机器人，但可以立即将其推广到空间三维机器人

用于 SRL 实验室实践的 Jupyter 笔记本

Demo 282 Guarrera

crazyflie_backflipping

Reinforcement-Learning

ML/DL/CS 领域的一些工作清单 - 包括基于 GAN 的图像生成、物体检测、神经机器翻译、相似性和度量学习、语音转文本、文本转语音

CHTC 上的 Mujoco

从各种来源尝试的实践课程

这是Spinning Up的一个克隆版本，目标是使用最新的 PyTorch 版本

TradeMasterReBuild

Fast Campus 强化学习

Reddit 评论机器人是一个基于 Python 的自动回复器

一些强化学习的算法 - 使用的环境是Windows10上的Python 3.10

Gym的欠驱动机器人

具身人模拟

肌肉骨骼人

人的建模

Mujoco 机器人

人形机器人

双足机器人

手臂

比赛

ROS

强化学习

DQN

AC

PPO

多智能体

模仿学习

分层强化学习

分布式强化学习

离线强化学习

逆强化学习

元强化学习

感知

触觉

规划

控制

测试

数据

大模型

建模

研究

奖励

毕业论文

教程

学习

任务

无人机

平台

工具

杂项