人形机器人模拟
生物人
使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境 - 包含在 OpenAI gym API 中
将 opensim 4.0+ MSK 模型转换为 MuJoCo 格式的工具 - 具有优化的肌肉运动学和动力学
比赛ENG-ME951-MyoChallenge2023 - 即DEP-RL:过度驱动和肌肉骨骼系统中强化学习的具体探索
在MuJoCo中建模和模拟人机交互任务 - 用户采用具有感知能力(例如自我中心视觉)的肌肉驱动生物力学模型进行建模,并通过强化学习进行训练以解决交互任务
用户采用具有感知能力(例如自我中心视觉)的肌肉驱动生物力学模型进行建模,并通过强化学习进行训练以解决交互任务
在 MUJOCO 和 Isaac Gym 中模拟 SMPL/SMPLX 人形机器人
LocoMuJoCo是一个专门针对运动的模仿学习基准。它涵盖了多种环境,包括四足动物、两足动物和肌肉骨骼人体模型
使用 MuJoCo 和 Gym 重新实现的 DeepMimic 控制框架
探索与行为相关的神经网络 - 模仿行为来模拟大脑
使用 Brax 和 MJX 实现啮齿动物模仿学习的 VNL 实现
MIMo是一个用于研究婴儿认知发展的平台 - 使用MuJoCo进行物理模拟的 gym 环境以及多个可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成。其他
机器人学习的模块化仿真框架和基准 - 包括人形机器人
使用 mujoco 和类人神经机械模型(而非人形机器人)实现 DeepMimic
用于机器人、深度强化学习和神经科学研究的 Python 工具
人的建模
使用肌肉骨骼模型创建 x2 外骨骼模型(模拟人类佩戴外骨骼的真实情况)
MyoSuite是使用MuJoCo物理引擎模拟的肌肉骨骼环境和任务的集合
用于研究婴儿认知发展的平台 - 可产生视觉、触觉、本体感觉和前庭系统模拟感官输入的模块组成
使用 ODE、PhysX 或 MuJoCo 后端的肌肉骨骼建模系统
Mujoco 机器人
MyoSuite - 使用 MuJoCo 物理引擎模拟的肌肉骨骼模型要解决的环境/任务的集合,并包含在 OpenAI gym API 中
dm_robotics:为机器人研究创建和使用的库、工具和任务
通过将人体运动数据传输到机器人模型(Unitree H1),并应用逆运动学 (IK) 和潜在的强化学习 (RL) 等先进技术进行实时自适应,使机器人能够执行动态且自然的类人运动
人形机器人
HumanoidBench:用于全身运动和操控的模拟人形基准 - 其他1 、 其他2 、其他3
Humanoid-Gym:基于零样本 Sim2Real 迁移的人形机器人强化学习 - 其他 、其他2
(类人)机器人操作的模仿学习 (IL)、强化学习 (RL) 和从演示中学习 (LfD)
包含 IsaacLab 扩展,用于训练人形机器人的神经全身控制器
从人体网格描述(SMPL、SMPL-X 等)重新定位到人形姿势
AgiBot X1是 AgiBot 自主研发并开源的一款模块化高自由度人形机器人
通过 Reachy2 的(假)sdk 在 mujoco 中与 Reachy2 进行交互
采用了Unitree RL Gym及其 H1_2 机器人模型,并选择了快速运动适应 (RMA)方法
HumEnv 是一个基于 SMPL 人形机器人的环境,旨在进行可重复的人形机器人控制研究
使用 Genesis 模拟器为两个机器人(KBot 和 ZBot)构建训练环境
使用Unitree Robots进行强化学习的简单示例,包括Unitree Go2、H1、H1_2、G1 - 其他1 、其他2 、 其他3 、其他4
使用JAX和 MuJoCo MJX在 GPU 上进行基于采样的模型预测控制
基于Unitree机器人的强化学习实现的仓库,支持Unitree Go2、H1、H1_2、G1 - 其他
AgiBot X1是 AgiBot 自主研发并开源的一款模块化高自由度人形机器人
Humanoid-Gym:基于零样本 Sim2Real 迁移的人形机器人强化学习 - 其他1 、 其他2 、 其他3
Robust Gymnasium:稳健强化学习的统一模块化基准
使用 Convex MPC 实现双足动物在崎岖和正弦地形上携带有效载荷行走
Humanoid-Gym-Modified 是对humanoid-gym框架的修改,它增加了Pandaman的开源模型,并引入了对 Gazebo 模拟环境中机器人 sim-to-sim 测试的支持
在 Stompy(由 K-Scale Labs 开发的人形机器人)上训练和测试强化学习策略的简单方法
双足机器人
在 BipedalWalker-v3 环境中使用近端策略优化 (PPO) 算法进行智能体训练
由伺服电机驱动的 ESP32 + Python 控制的双足机器人
基于 NVIDIA Isaac Gym 的强化学习环境。对于 HighTorque Robotics 的 Pi 人形机器人
比赛
ROS
乐聚机器人控制 - 包含 Mujoco 仿真环境
将 ROS 与 MuJoCo 结合使用的封装器、工具和附加 API - 支持 Noetic,- 其他 mujoco_ros2_control
利用 ROS2 MoveIt 任务构造器来控制 MuJoCo 中的 UR5e 机械臂和 Robotiq 2F-85 夹持器
适用于 ROS 机器人的 FastRLAP 实现、相关的 Gazebo 环境,以及用于越野驾驶的 MuJoCo 环境
一款一体化 ROS 软件包 RoTools - 用于高级机器人任务调度、视觉感知、路径规划、仿真以及直接/远程操控。它利用 BehaviorTree 实现快速的任务构建和协调,并提供各种实用程序来弥合真实/模拟机器人与高级任务调度程序之间的差距。
强化学习
使用 OpenAI Gym 环境的 xArm6 机器人强化学习框架 - 该模型使用深度确定性策略梯度(DDPG) 进行连续动作,并使用后见之明经验回放(HER)
在 OpenAI Gym 环境中为超级马里奥兄弟实现强化学习 - 使用近端策略优化 (PPO) 算法
使用 Policy-Gradient 方法在 OpenAI-Gym 中训练代理
基于 PyTorch 构建的强化学习算法的实现 - 它已针对高负载工作负载进行了优化,后端支持 CUDA 和 OpenMP(取决于硬件可用性)
Pytorch 实现的 MuZero 用于 Gym 环境 - 支持动作空间和观察空间的任何离散、Box 和 Box2D 配置
基于 Tensorflow 的 DDPG 实现 - 使用 DVC 跟踪管道进行实验
使用深度 Q 学习训练一个代理,让它在一个大的方形环境中收集尽可能多的黄色香蕉
reinforcement_learning_dataframe_matching
基于OpenAI Spinning Up和Stable-Baseline3的 PPO 实现
通过自适应策略正则化实现高效的现实世界强化学习,实现腿部运动
基于模型的 RL 算法 PlaNet 的 PyTorch 实现
DQN
将各种改进与强化学习算法相结合 - 试图遵循三个关键原则:数据效率、可扩展性和更快的训练速度
基于深度 Q 网络的 TensorFlow 2 强化学习实现
Atari 2600 游戏深度 Q 网络算法的重新实现及对比分析
双重和决斗 Q 学习,结合优先经验回放缓冲区和内在好奇心模块,用于 Atari 游戏的强化学习
基于视觉的端到端机器人抓取,使用 DQN 在 mujoco 环境中进行训练
在 lunarlander 和 bipedalwalker 上测试的 DQN 和 DDPG 的 PyTorch 实现
AC
软动作者-评论家:基于随机动作者的离线策略最大熵深度强化学习
用于机器人环境交互任务的演员-评论家模型预测力控制器的实验验证
对安全强化学习的软演员-评论家 (SAC) 算法的修改,结合概率推理来强制执行安全约束,同时保持有效的探索
JSAC 是一个基于软演员-评论 (SAC) 的强化学习 (RL) 系统,旨在实现高性能且稳定的图像学习
质量-多样性行动者-评论家:通过价值和后继特征评论家学习高性能和多样化行为
针对 CS285 的深度 Q 学习、Actor Critic 和 Soft Actor Critics 算法的实现
自软演员-评论家的 SAC 的确定性变体:具有随机演员的离线策略最大熵深度强化学习
实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础
实现的主要算法是 Soft Actor-Critic (SAC)
PPO
人工生命模拟器 - 结合了 PPO 和进化算法
在 OpenAI gym 中从 Ant-v4 环境衍生的自定义环境中实现 PPO,以学习穿越模板障碍
多智能体
模仿学习
通过语境翻译进行观察模仿 - 一种基于演示训练代理模仿专家的算法
Milo 是一个 Python 库,旨在简化强化学习 (RL) 和模仿学习 (IL) 任务
利用扩散模型作为高表达性的策略类别,用于行为克隆和策略正则化
分层强化学习
使用 Pytorch、OpenAI Gym 和 Mujoco 进行机器人分层强化学习
hierarchy_Reinforcement_Learning
使用 Kinova 臂进行分层 RL,在桌面上解决汉诺塔问题
分布式强化学习
Stellaris:基于无服务器计算的陈旧感知分布式强化学习
在 Hadoop 集群中使用 Ray 和 RLlib 进行分发的预部署
离线强化学习
使用新颖的 Hyena 连续卷积核作为 Transformer 的替代方案,以便在离线强化学习中高效地捕捉长距离依赖关系
使用 Transformer 模型的离线训练在元学习环境中执行上下文强化学习
Soft Actor-Critic 中的 SAC:基于随机参与者的离线策略最大熵深度强化学习
逆强化学习
元强化学习
Meta-World 是一个开源的元强化学习和多任务学习模拟基准,包含 50 个不同的机器人操作任务
Meta-World 是一个开源基准,用于开发和评估用于连续控制机器人操作环境的多任务和元强化学习算法 - 其他1
感知
模拟具身智能体同时发展眼部形态和神经处理的环境,揭示了视觉系统进化的复杂过程
触觉
通过技能库和触觉表征进行语义-几何-物理驱动的机器人操作技能转移
通过触觉反馈遥操作系统双手机器人的几个演示来学习变量柔顺控制
通过 ROS 集成,在 MuJoCo 中对 DexRobot 手进行触觉模拟
一个关于连接触觉设备、VR 耳机和物理模拟以模拟可变形物体的实时触摸的研究项目
规划
通过对不确定道路系统进行持续数据收集来进行路线优化 - 包裹递送算法,使其能够在更新道路系统信息的同时安排递送。
控制
一种基于视觉模型的强化算法 Dreamer - 它学习一个世界模型,该模型从高级像素图像中捕捉潜在动态,并完全在从学习到的世界模型中想象的部署中训练控制代理
为 Franka Emica Panda 机械手实施的模型预测控制
通过在连接每条腿的两个连杆和躯干的八个铰链上施加扭矩来协调四条腿向前移动
为 Allegro Hand(一款拥有 16 个独立可控关节的机械手)实现了比例积分微分 (PID) 控制器
倒立摆 - 使用基于优化的操作空间控制来跟踪双摆的末端执行器位置
测试
将Humanoid-gym框架评估其他人形机器人(以H1为例)
验证gymnasium_roboticsmujoco 环境的 MuJoCo 模型变化 - 其他
使用来自 4 个种子的 Mujoco Benchmark 结果对 SAC、TD3 和 TD7 进行 pytorch 实现
专注于使用稳定基线 3方法和Gymnasium界面进行目标条件强化学习 - 其他
数据
使用 MuJoCo 生成的数据集的 NeRF 的 Pytorch 实现
包含 Machines in Motion 实验室中使用的机器人描述
MimicGen:使用人类演示的可扩展机器人学习的数据生成系统
大模型
反馈就是你所需要的一切吗?在目标条件强化学习中利用自然语言反馈
TeaMs-RL:通过强化学习教授 LLM 生成更好的指令数据集
TinyVLA:面向机器人操作的快速、数据高效的视觉-语言-动作模型
Text2Reward:利用语言模型进行强化学习的奖励塑造 - 其他
DexVLA:带有插件扩散专家的视觉语言模型,用于视觉运动策略学习
InCLET:大型语言模型上下文学习可以提高具体指令遵循能力
实现 RoCo:具有人类参与的大型语言模型的辩证多机器人协作 (HITL) - 其他
可使用设备上的 Whisper 和 Llama 语音控制机械臂
使用大型语言模型和强化学习对 Mastermind 奖励函数进行进化优化
将 ChatGPT 集成到机器人控制过程中,以实现零样本规划和控制
建模
利用通用强化学习算法,在给定环境中教导和控制机器人完成给定任务
为 Atlas 机器人提供了 mujoco 和 URDF 模型
humanoidgym 适用于 alexbotmini 并适用于 alexbotmini_sim2real
包含 Solo-12 四足动物的完整 MuJoCo 模型,包括高保真视觉效果
使用变分自编码器 (VAE) 和生成对抗网络 (GAN) 等深度学习人工智能算法,可以使用训练数据集自动创建新的游戏内容
利用 Franka Manipulator 在 MuJoCo 中实现的开源强化学习环境
扩展控制器环境 - 包括推车上的倒立摆、弹簧加载倒立摆
固定在矢状平面中的 MuJoCo 和 URDF 模型,用于研究腿式机器人的算法
使用 V-HACD 将凹网格分解为凸包来创建 MJCF 模型
基于深度强化学习的 Next-Best-View 方法,用于未知对象重建
研究
通过强化学习和域随机化实现 Hopper 控制的模拟到现实迁移
DeGuV:深度引导的视觉强化学习,用于操作中的泛化和可解释性
学习执行长视界移动操作任务对于推动家庭和工作场所机器人技术的发展至关重要
通过最大化证据进行行动推断:通过世界模型进行观察的零样本模仿
信念状态编码器/解码器 - 似乎产生了一种可与波士顿动力手工算法(四足动物 Spot)相媲美的策略
按复杂性和关节数量的递增顺序训练 MuJoCo 环境(Hopper、Half-Cheetah 和 Ant)的模型
对于 safe_exploration 任务,既需要数据多样性,又需要在线训练安全保障
任意跌倒状态起身 - UE5
基于注意力的排列不变神经网络框架 的官方 PyTorch 实现
专为 Fanuc Robotiq 机械手设计的创新机械臂操控解决方案
反馈就是你所需要的一切吗?在目标条件强化学习中利用自然语言反馈
基于 DeepMind Control Suite 实现的具有对称性的 MDP 集合
研究 Transformers 1 层 Transformer 模型如何收敛到简单统计推断问题的贝叶斯最优解
提升 AI 对齐研究工程技能的资源 - 其他 、arena-problem-sets 、 3.0
自适应强化学习的表征学习 - 使用可微分可塑性、状态空间模型和深度强化学习
合成经验回放 (SynthER) 是一种基于扩散的方法 - 可以对强化学习 (RL) 代理收集的经验进行任意上采样,从而大幅提升采样效率和扩展优势
解决 OpenAI Gym 中的神经元中间算法遗传算法的问题
从梦想到控制:通过潜在想象力学习行为,在 PyTorch 中实现
深度强化学习中的首因偏差 - 深度强化学习代理的 JAX 实现,带有重置功能
利用扩散模型作为高表达性的策略类别 - 用于行为克隆和策略正则化
奖励
基于 DeepMind Control Suite 实现的具有变化奖励和动态的上下文 MDP
用示例代替奖励:通过递归分类进行基于示例的策略搜索 的 pytorch 实现
毕业论文
教程
学习
伯克利 CS 285的作业:深度强化学习、决策和控制 - 其他1 、其他2 、其他3 、其他4 、 其他5 、其他6 、 其他7 、其他8 、其他9 、其他10 、其他11 、 其他12 、 其他13 、 其他14 、其他15 、 其他16 、其他17 、其他18 、其他19 、其他20 、
一个专门用于学习使用 Half Cheetah 模型进行强化学习的存储库
由阿尔托大学 Joni Pajarinen 教授主讲的强化学习课
CS 285 最终项目:基于连续时间模型的强化学习中的动态学习的神经常微分方程
RL相关项目 - 模仿学习、策略梯度
本课程包括建模不确定性、马尔可夫决策过程、基于模型的强化学习、无模型强化学习函数近似、策略梯度、部分可观察的马尔可夫决策过程
使用 Gymnasium 和 Mujoco 构建强化学习的示例
加州大学伯克利分校 CS285 深度强化学习 2022 年秋季
IASD 硕士深度强化学习课程的作业 - 基于课程Berkeley CS 285:深度强化学习、决策和控制
CS285 的最终项目代码库:加州大学伯克利分校的深度强化学习
任务
一个吉他演奏模拟系统,能够读取指法谱,并在训练后引导机械手弹奏吉他
OGMP:Oracle 引导的多模式策略,实现敏捷、多功能机器人控制
基于 MuJoCo 的自主飞艇控制模拟环境,具有全面的域随机化支持
测试 RL 在量子控制中的应用 - 特别关注电路级和脉冲级门校准任务
使用基于贝叶斯优化的课程学习提高自主赛车深度强化学习方法的环境鲁棒性
与 ROS NIAS-API 类似的 CoppeliaSim 机器人模拟器的绑定
中国跳棋环境中,经过完整参数共享训练的 PPO 代理进行自我对弈
研究如何训练自适应人机界面,以在获得良好控制的同时最大限度地减少用户交互
使用 UR5e 机械臂和 Robotiq 2F-85 夹持器来操纵柔性物体
使用 Panda 的非常简单的 MuJoCo 拾取和放置任务
使用 NEAT RL 算法解决 ATARI Retro Pong
在 iCub 人形机器人上重现与 RL 项目相关的灵巧操作实验的代码
使用凸模型预测控制(MPC)的四足动物运动的 Python 实现
无人机
飞行和漂浮模型,例如四旋翼飞行器、悬挂有效载荷的四旋翼飞行器等
使用 MuJoCo 为 Bitcraze Crazyflie 2 无人机定制的 OpenAI Gym 环境
DroneSim2Sim:无人机的 Sim2Sim 传输基准
MuJoCo gym 的无人机执行各种活动。传感器包括:2 个摄像头(立体摄像头)、加速度计、陀螺仪
在 PyBullet 环境中模拟六轴飞行器(无人机),使用 YOLOv8 动态检测和统计人员数量
在模拟环境中训练无人机,使其自主导航到目标拾取位置,从该位置拾取并运送到目标位置
平台
一个基于 Flask 的综合 REST API 服务器,用于通过 MuJoCo 模拟或真实硬件连接控制软机器人
EnvPool是一个基于 C++ 的批处理环境池,DGX-A100 上的 Mujoco 模拟器原始帧率约为 300 万帧
使用MuJoCo进行实时预测控制的交互式应用程序和软件框架 - 人形动作捕捉追踪,其他1、其他2
LeRobot 旨在用 PyTorch 为现实世界的机器人技术提供模型、数据集和工具 - 其他
Gym - 用于开发和比较强化学习算法,它提供了一个用于在学习算法和环境之间进行通信的标准 API,以及一组兼容该 API 的标准环境。已迁移至 Gymnasium
Agility Robotics 的 Cassie 机器人的 mujoco 模拟因尽可能快地向前行走/奔跑而获得奖励 - 其他
robosuite是一个基于MuJoCo物理引擎的机器人学习模拟框架 - 其他2 、 其他3 、其他4 、其他5
Google Cloud Platform 上的数据和 AI 平台
基于MuJoCo的多平台、模块化机器人仿真框架 - 主要用于机械臂的强化学习和控制算法实现
人机交互学习(HILL)和多智能体强化学习(MARL)研究平台
包含 REINFORCE、AC2、SAC 和 PPO 等热门算法的实现,并集成到 Gymnasium 环境
七种机器人模型、八种夹爪模型、六种控制器模式和九种标准化任务
ReDMan 是一个开源模拟平台,为可靠的灵巧操作提供了安全 RL 算法的标准化实现
Ray 由一个核心分布式运行时和一组用于加速 ML 工作负载的 AI 库组成
工具
将 URDF 模型转换为 MJCF 模型的实用工具 - 其他
Jax-Baseline 是一种使用 JAX 和 Flax/Haiku 库的强化学习实现,反映了 Stable-Baselines 的功能
Google DeepMind MuJoCo 的现代模拟包装器
mink 是一个基于MuJoCo物理引擎的 Python 微分逆运动学库 - 其他
一个基于 C++ 的批处理环境池 EnvPool - 基于 C++ 的高性能并行环境执行引擎(矢量化环境),适用于通用 RL 环境
基于Onshape API,从组件中检索信息并构建适合物理模拟的机器人描述(URDF、SDF、MuJoCo)
用于处理MuJoCo Python 绑定和dm_control 的实用程序
BuildingGym 项目提供了一个 API,用于轻松训练适用于所有 EnergyPlus 环境的强化学习控制算法,并包含常见强化学习算法的实现:策略梯度、DQN、A2C、A3C 等
一个用于优化的 Python 库,面向模块化机器人和进化计算
结构化的模块化设置,用于使用 Ray RLlib 库训练强化学习 (RL) 模型
统一原生 MuJoCo (MJC) 和 MuJoCo-XLA (MJX) 中实现的环境的开发和接口
包含几个具有正定成本函数的 gym 环境,旨在与稳定的 RL 代理兼容
Transformer (TIT) 中 Transformer 作为深度强化学习骨干的官方实现
cleanrl 具有研究友好特性的深度强化学习算法的高质量单文件实现(PPO、DQN、C51、DDPG、TD3、SAC、PPG) - 其他 、 其他2 、 其他3 、其他4 、其他5 、其他6 、 其他7 、 其他8
使用 Unity ML-Agents (AI) 进行深度强化学习的 3D 包装
一些基于 MuJoCo 物理引擎构建的 (C/C++) 示例和扩展
Mujoco Deepmind 的 Python 绑定中存储库mujoco_panda的实现
用于将MJCF(MuJoCo 建模格式)机器人模型文件中的有限元素转换为 URDF 的脚本
OpenAI Gym 环境使用 pybullet 来制作Tyrannosaur
现代机器学习论文的实现,包括 PPO、PPG 和 POP3D
用于处理 MuJoCo 中使用的复合 Wavefront OBJ 文件的 CLI
杂项
InterGP - 收集数据、训练代理的流程
ACM AI 所有研讨会内容代码等的存储库 - 内容按季度组织
PPO 和 Friends 是近端策略优化的 PyTorch 实现,同时还具有各种额外的优化和附加组件
实施监督 Actor-Critic 策略提炼作为其他迁移学习 RL 方法的基础
amr_fleet_offboard_infra_frontend
ML/DL/CS 领域的一些工作清单 - 包括基于 GAN 的图像生成、物体检测、神经机器翻译、相似性和度量学习、语音转文本、文本转语音
这是Spinning Up的一个克隆版本,目标是使用最新的 PyTorch 版本
Reddit 评论机器人是一个基于 Python 的自动回复器
一些强化学习的算法 - 使用的环境是Windows10上的Python 3.10