Added rbs_gym package for RL & multi-robot launch setup

2024-07-04 11:38:08 +00:00 · 2024-07-04 11:38:08 +00:00 · b58307dea1
commit b58307dea1
parent f92670cd0d
103 changed files with 15170 additions and 653 deletions
--- a/env_manager/rbs_gym/hyperparams/sac.yml
+++ b/env_manager/rbs_gym/hyperparams/sac.yml
@ -0,0 +1,42 @@
+# Reach
+Reach-Gazebo-v0:
+  policy: "MlpPolicy"
+  policy_kwargs:
+    n_critics: 2
+    net_arch: [128, 64]
+  n_timesteps: 200000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 512
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.001
+  ent_coef: "auto_0.1"
+  target_entropy: "auto"
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  noise_type: "normal"
+  noise_std: 0.025
+  use_sde: False
+  optimize_memory_usage: False
+
+Reach-ColorImage-Gazebo-v0:
+  policy: "CnnPolicy"
+  policy_kwargs:
+    n_critics: 2
+    net_arch: [128, 128]
+  n_timesteps: 50000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 32
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.0005
+  ent_coef: "auto_0.1"
+  target_entropy: "auto"
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  noise_type: "normal"
+  noise_std: 0.025
+  use_sde: False
+  optimize_memory_usage: False
--- a/env_manager/rbs_gym/hyperparams/td3.yml
+++ b/env_manager/rbs_gym/hyperparams/td3.yml
@ -0,0 +1,39 @@
+Reach-Gazebo-v0:
+  policy: "MlpPolicy"
+  policy_kwargs:
+    n_critics: 2
+    net_arch: [128, 64]
+  n_timesteps: 200000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 512
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.001
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  target_policy_noise: 0.1
+  target_noise_clip: 0.2
+  noise_type: "normal"
+  noise_std: 0.025
+  optimize_memory_usage: False
+
+Reach-ColorImage-Gazebo-v0:
+  policy: "CnnPolicy"
+  policy_kwargs:
+    n_critics: 2
+    net_arch: [128, 128]
+  n_timesteps: 50000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 32
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.0005
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  target_policy_noise: 0.1
+  target_noise_clip: 0.2
+  noise_type: "normal"
+  noise_std: 0.025
+  optimize_memory_usage: True
--- a/env_manager/rbs_gym/hyperparams/tqc.yml
+++ b/env_manager/rbs_gym/hyperparams/tqc.yml
@ -0,0 +1,46 @@
+# Reach
+Reach-Gazebo-v0:
+  policy: "MlpPolicy"
+  policy_kwargs:
+    n_quantiles: 25
+    n_critics: 2
+    net_arch: [128, 64]
+  n_timesteps: 200000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 512
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.001
+  ent_coef: "auto_0.1"
+  target_entropy: "auto"
+  top_quantiles_to_drop_per_net: 2
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  noise_type: "normal"
+  noise_std: 0.025
+  use_sde: False
+  optimize_memory_usage: False
+
+Reach-ColorImage-Gazebo-v0:
+  policy: "CnnPolicy"
+  policy_kwargs:
+    n_quantiles: 25
+    n_critics: 2
+    net_arch: [128, 128]
+  n_timesteps: 50000
+  buffer_size: 25000
+  learning_starts: 5000
+  batch_size: 32
+  learning_rate: lin_0.0002
+  gamma: 0.95
+  tau: 0.0005
+  ent_coef: "auto_0.1"
+  target_entropy: "auto"
+  top_quantiles_to_drop_per_net: 2
+  train_freq: [1, "episode"]
+  gradient_steps: 100
+  noise_type: "normal"
+  noise_std: 0.025
+  use_sde: False
+  optimize_memory_usage: True