Обучить RL агента для peg-in-hole #75
Labels
No labels
construct
design
doc
incident
integration
moveit
problem
programming
research
RL
schematics
test
No milestone
No project
No assignees
1 participant
Notifications
Due date
No due date set.
Dependencies
No dependencies set.
Reference
robossembler/runtime#75
Loading…
Add table
Add a link
Reference in a new issue
No description provided.
Delete branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
assigned to @solid-sinusoid
changed due date to June 23, 2023
changed due date to June 25, 2023
marked this issue as blocking #76
removed due date June 25, 2023
results_PiH.pdf
Исследованы четыре алгоритма: SAC, TD3, DDPG, PPO. Исследованы и проанализированы 2 различные среды: первая, из которых не дообучилась, а вторая обучилась. Первая среда демонстрирует
положительную динамику, но за счёт ограниченного числа вычислительных мощностей, довести обучение до конца не удалось. Результат обучения второй среды умеренный, она имеет меньшую вычислительную сложность за счёт меньшей размерности пространства наблюдений и действий. В итоге предлагается произвести более длительное обучение агентов во второй среде для достижения положительных результатов. Для агентов DDPG и TD3 первой среды предлагается уменьшить коэффициент скорости обучения и произвести дополнительные вычисления.