Обучить RL агента для peg-in-hole #75

Closed
opened 2023-06-18 23:01:23 +03:00 by solid-sinusoid · 7 comments
solid-sinusoid commented 2023-06-18 23:01:23 +03:00 (Migrated from gitlab.com)
No description provided.
solid-sinusoid commented 2023-06-18 23:02:15 +03:00 (Migrated from gitlab.com)

assigned to @solid-sinusoid

assigned to @solid-sinusoid
movefasta commented 2023-06-20 11:35:30 +03:00 (Migrated from gitlab.com)

changed due date to June 23, 2023

changed due date to June 23, 2023
movefasta commented 2023-06-24 18:45:15 +03:00 (Migrated from gitlab.com)

changed due date to June 25, 2023

changed due date to June 25, 2023
movefasta commented 2023-06-24 18:46:16 +03:00 (Migrated from gitlab.com)

marked this issue as blocking #76

marked this issue as blocking #76
movefasta commented 2023-06-25 18:05:33 +03:00 (Migrated from gitlab.com)

removed due date June 25, 2023

removed due date June 25, 2023
solid-sinusoid commented 2023-06-30 16:21:43 +03:00 (Migrated from gitlab.com)
[results_PiH.pdf](/uploads/cea13feb576b3c293e7b04522ba95c59/results_PiH.pdf)
movefasta commented 2023-07-14 15:33:58 +03:00 (Migrated from gitlab.com)

Исследованы четыре алгоритма: SAC, TD3, DDPG, PPO. Исследованы и проанализированы 2 различные среды: первая, из которых не дообучилась, а вторая обучилась. Первая среда демонстрирует
положительную динамику, но за счёт ограниченного числа вычислительных мощностей, довести обучение до конца не удалось. Результат обучения второй среды умеренный, она имеет меньшую вычислительную сложность за счёт меньшей размерности пространства наблюдений и действий. В итоге предлагается произвести более длительное обучение агентов во второй среде для достижения положительных результатов. Для агентов DDPG и TD3 первой среды предлагается уменьшить коэффициент скорости обучения и произвести дополнительные вычисления.

Исследованы четыре алгоритма: SAC, TD3, DDPG, PPO. Исследованы и проанализированы 2 различные среды: первая, из которых не дообучилась, а вторая обучилась. Первая среда демонстрирует положительную динамику, но за счёт ограниченного числа вычислительных мощностей, довести обучение до конца не удалось. Результат обучения второй среды умеренный, она имеет меньшую вычислительную сложность за счёт меньшей размерности пространства наблюдений и действий. В итоге предлагается произвести более длительное обучение агентов во второй среде для достижения положительных результатов. Для агентов DDPG и TD3 первой среды предлагается уменьшить коэффициент скорости обучения и произвести дополнительные вычисления.
movefasta (Migrated from gitlab.com) closed this issue 2023-07-14 15:51:57 +03:00
Sign in to join this conversation.
No milestone
No project
No assignees
1 participant
Notifications
Due date
The due date is invalid or out of range. Please use the format "yyyy-mm-dd".

No due date set.

Dependencies

No dependencies set.

Reference
robossembler/runtime#75
No description provided.