Остальная часть исследования румынских коллег и пара доп. ссылок
This commit is contained in:
parent
5182e24204
commit
d84b0ac4b3
1 changed files with 71 additions and 2 deletions
|
@ -3,6 +3,11 @@ id: machine-learning-in-robotics
|
|||
title: 'Применение машинного обучения в робототехнике'
|
||||
---
|
||||
|
||||
## Каталоги проектов
|
||||
|
||||
[awesome-deel-rl](https://github.com/kengz/awesome-deep-rl)
|
||||
|
||||
|
||||
## События
|
||||
|
||||
### Conference on Robot Learning
|
||||
|
@ -11,6 +16,10 @@ title: 'Применение машинного обучения в робото
|
|||
|
||||
[Официальный Сайт](https://sites.google.com/robot-learning.org/corl2020/home) | [Youtube](https://www.youtube.com/c/ConferenceonRobotLearning)
|
||||
|
||||
### Workshop on Closing the Reality Gap in Sim2Real Transfer for Robotics
|
||||
|
||||
Воркшоп по sim2real с научными публикациями. [Официальный сайт](https://sim2real.github.io/)
|
||||
|
||||
|
||||
## Организации
|
||||
|
||||
|
@ -52,7 +61,6 @@ title: 'Применение машинного обучения в робото
|
|||
|
||||
Машинное обучение для сборочных роботов. Обзор решений и подходов.
|
||||
|
||||
|
||||
Вызовы обучения с подкреплением в робототехнике:
|
||||
* Наличие большого количества степеней свободы у современных промышленных манипуляторов(6-7 DoF) приводит к т.н. "проклятью размерности" (взрывному росту числа возможных действий и состояний) и не позволяет использовать ряд алгоритмов. __Возможные способы решения:__ выбор алгоритмов, нечувствительных к проклятью.
|
||||
* Необходимость в большом количестве данных для обучения и длительность обучения. Создание баз данных на реальных объектах очень затратно, долго по времени и небезопасно. __Возможные способы решения:__ создание проектов как [KnowRob](https://www.knowrob.org/) для сбора и аггрегирования данных многочисленных роботов в разных предметных областях, формирование баз данных.
|
||||
|
@ -67,6 +75,64 @@ title: 'Применение машинного обучения в робото
|
|||
* оптимизация сложные задач, которые не имеют аналитических решений (известна функция затрат (например, снизить энергии для выполнения задачи)
|
||||
* адаптация навыков к новым (ранее не встречавшимся) задачам.
|
||||
|
||||
Перспективные подходы к RL в робототехнике
|
||||
* __Self-Imitation Learning__ (SIL, [paper](https://www.mdpi.com/2079-9292/9/10/1742/pdf), 21 October 2020). Алгоритм с единой стратегией использует эпизодические измененные прошлые траектории, т.е. ретроспективный опыт для обновления стретегии. Эксперименты показывают, что эпизодический SIL может работать лучше, чем базовые алгоритмы с единой стретегией (on-policy), достигая производительности, сопоставимой с современными алгоритмами с разделённой стратегией (off-policy) в некоторых задачах управления моделируемым роботом, обладая способностью решать проблемы с разреженным вознаграждением в условиях непрерывного контроля.
|
||||
* __Multi-Policy Bayesian Optimization__ ([paper](https://arxiv.org/pdf/2011.01891.pdf), 1 Apr 2021, [github](https://github.com/iexarchos/PolicyTransferKinDRA.git)). Вариативное изменение параметров кинематики в ходе симуляции. Симуляция показала, что внесение изменений в кинематику во время обучения позволяет добиться выгод для переноса стретегии (policy transfer).
|
||||
* __Curiosity Based RL__ on Robot Manufacturing Cell ([paper](https://arxiv.org/pdf/2011.08743.pdf), 17 Nov 2020). Чтобы обучение с подкреплением оказалось успешным в робототехнике для планирования движений требуется ручная настройка вознаграждений. Для решения проблемы на гибкой производственной ячейке с роботом используется RL, основанное на использовании внутренней мотивации в качестве формы вознаграждения.
|
||||
* __SOft Data Augmentation (SODA)__ ([paper](https://arxiv.org/pdf/2011.13389), [github](https://github.com/nicklashansen/dmcontrol-generalization-benchmark), [сайт](https://nicklashansen.github.io/SODA/)) - метод, который стабилизирует обучение, отделяя увеличение объема данных от изучения политики. SODA - это общая структура (которая использует Soft Actor-Critic (SAC) в качестве базового алгоритма) для увеличения данных, которая может быть реализована поверх любого стандартного алгоритма RL.
|
||||
* __Fault-Aware Robust Control via Adversarial RL__ ([paper](https://arxiv.org/pdf/2011.08728), 30 Nov 2020). Предложена состязательная структура RL, которая значительно повышает устойчивость робота к повреждениям суставов и сбоям в задачах манипулирования. Это позволяет роботу быть в курсе своих рабочих состояний.
|
||||
* __Reachability-based Trajectory Safeguard (RTS)__ ([paper](https://arxiv.org/pdf/2011.08421), [github](https://github.com/roahmlab/reachability-based_trajectory_safeguard)). Используется параметризация траектории и анализ достижимости для обеспечения безопасности во время обучения стратегии. Метод RTS+RL демонстрируется в моделировании, выполняющем безопасное планирование отступающего горизонта в реальном времени на трех роботизированных платформах с пространствами непрерывного действия.
|
||||
* __Joint Space Control via Deep RL (JAiLeR)__ ([paper](https://arxiv.org/pdf/2011.06332)). Глубокая нейронная сеть, обученная с помощью model-free RL, используется для сопоставления пространства задач (task space) с пространством соединений (joint space). Обучение модели показало, что этот простой подход позволяет достичь точности, сравнимой с точностью классических методов на большом рабочем пространстве, как в симуляции, так и в реальности. Преимущества этого подхода включают автоматическую обработку избыточности, ограничений на стык и профилей ускорения/замедления.
|
||||
* __Accelerating Reinforcement Learning with Learned Skill Priors (SPiRL)__ ([paper](https://arxiv.org/abs/2010.11944), [github](https://github.com/clvrai/spirl)). Для ускорения обучения с помощью имеющихся данных излагаемый в работе подход предполагает разбиение задачи на навыки и обучение по ним отдельно. Так можно сократить объём передаваемой информации от предыдущих попыток обучения.
|
||||
|
||||
Сочетание RL и Control Theory
|
||||
* __Learning Robot Trajectories subject to Kinematic Joint Constraints__ ([paper](https://arxiv.org/pdf/2011.00563), [github](https://github.com/translearn/limits)). В отличие от наказания за нарушение ограничений, этот подход обеспечивает четкие гарантии безопасности.
|
||||
* __Motion planning for multi-robots__ - планирование движений нескольких роботов
|
||||
* J. Kurosu, A. Yorozu, and M. Takahashi, “Simultaneous dual-arm motion planning for minimizing operation time”
|
||||
* S. S. Mirrazavi Salehian, N. Figueroa, and A. Billard, “A unified framework for coordinated multi-arm motion planning,” Sep. 2018.
|
||||
* J. P. Van Den Berg and M. H. Overmars, “Prioritized motion planning for multiple robots” 2005
|
||||
* __Model-based RL from Signal Temporal Logic Specifications__ ([paper](https://arxiv.org/abs/2011.04950)). В этой статье предлагается выразить желаемое высокоуровневое поведение робота с помощью языка формальной спецификации Signal Temporal Logic (STL) в качестве альтернативы функциям вознаграждения/затрат. Используются спецификации STL в сочетании с model-based RL для разработки прогнозирующих поведение программ, которые пытаются оптимизировать выполнение спецификации STL в течение конечного временного горизонта:
|
||||
* Формулируется процедура для обучения детерминированной прогностической модели динамики системы с использованием глубоких нейронных сетей. Учитывая состояние и последовательность действий, такая прогностическая модель создает прогнозируемую траекторию на заданном пользователем временном горизонте.
|
||||
* Для оценки оптимальности прогнозируемой траектории используется функция затрат, основанная на количественной семантике STL, и оптимизатор черного ящика, который использует эволюционные стратегии для определения оптимальной последовательности действий (в настройках MPC - model predictive control).
|
||||
|
||||
____Темпоральная логика сигналов (STL)___ - это формализм темпоральной логики для определения свойств непрерывных сигналов. STL широко используется для анализа программ в киберфизических системах (CPS), которые взаимодействуют с физическими объектами. STL разработана в 2004 году ([pdf](https://www.researchgate.net/profile/Oded-Maler/publication/220958490_Monitoring_Temporal_Properties_of_Continuous_Signals/links/00b4951adab57d79c4000000/Monitoring-Temporal-Properties-of-Continuous-Signals.pdf)). Есть свежая [реализация](https://github.com/anand-bala/signal-temporal-logic) C++ библиотеки с Python-биндингами для мониторинга спецификаций STL._
|
||||
|
||||
____Управление с прогнозирующими моделями (Model Predictive Control, MPC)___ — один из современных методов теории управления использующийся в основном в управлении производственными процессами. Является улучшением классического управления с отрицательной обратной связью, в котором учитывается предсказание поведения объекта управления на различные типы входных воздействий. Обратная связь в таких системах управления используется для корректировки неточностей, связанных с внешними помехами и неточностью математической модели объекта управления. Регулятор полагается на эмпирическую модель процесса для того, чтобы предсказать дальнейшее его поведение, основываясь на предыдущих значениях переменных состояния. Модель объекта управления обычно выбирается линейной._
|
||||
* Learning Stable Normalizing-Flow Control for Robotic Manipulation [paper](https://arxiv.org/abs/2011.00072). В работе предлагается решение проблемы стабильности в RL-алгоритмах с помощью применения теории управления. Метод предназначен для того, чтобы в конечном итоге создавать детерминированные контроллеры с доказуемой стабильностью без потери эффективности обучения.
|
||||
|
||||
State-of-the-Art deep-RL алгоритмы в робототехнике
|
||||
|
||||
__Основные классы алгоритмов:__
|
||||
* Discrete action space algorithms (DAS)
|
||||
* Deep Q-Network (DQN)
|
||||
* Deep Duelling Networks
|
||||
* Normalize Advantage Functions
|
||||
* Continuous action space algorithms (CAS)
|
||||
* Stochastic continuous action space (SCAS)
|
||||
* Stochastic policy gradient
|
||||
* Deep actor-critic (with experience replay)
|
||||
* Trust region policy gradient
|
||||
* Neutral policy gradient
|
||||
* Deterministic continuous action space (DCAS)
|
||||
* Deep Deterministic Policy Gradient (DDPG)
|
||||
* On-policy DPG
|
||||
* Off-policy DPG
|
||||
|
||||
__ACDER: Augmented Curiosity-Driven Experience Replay__ ([paper](https://arxiv.org/pdf/2011.08027.pdf)). ACDER демонстрирует многообещающие экспериментальные результаты во всех трех основных сложных
|
||||
задачах роботизированной манипуляции и повышает эффективность выборки в пять раз по сравнению с ванильной DDPG+HER. Стратегии, обученные задачам "охват", "толчок" и "выбор и размещение", хорошо работают на физическом роботе без какой-либо дополнительной настройки.
|
||||
|
||||
__Critic PI2__: Master Continuous Planning via Policy Improvement with Path Integrals and Deep Actor-Critic Reinforcement Learning ([paper](https://arxiv.org/pdf/2011.06752.pdf)). Подход сочетает методы оптимизации траектории, deep actor-critic RL и model-based RL. Планирование с помощью критика значительно повышает эффективность выборки и производительность в реальном времени.
|
||||
|
||||
__Compose Hierarchical Object-Centric Controllers for Robotic Manipulation__ ([paper](https://arxiv.org/pdf/2011.04627)). RL используется создания иерархических объектно-ориентированных контроллеров для задач управления. Подход имеет несколько преимуществ. Во-первых, объектно-ориентированные контроллеры можно повторно использовать в нескольких задачах. Во-вторых, композиции контроллеров инвариантны к определенным свойствам объекта. Наконец, использование структурированного пространства действий вводит значимые индуктивные предубеждения для манипулирования. Эксперименты показывают, что предлагаемый подход приводит к более целенаправленному исследованию и, следовательно, повышается эффективность выборки. Это позволяет обобщать нулевые результаты в тестовых средах и передавать моделирование в реальность без точной настройки.
|
||||
|
||||
__Learning Force Control for Contact-rich Manipulation Tasks with Rigid Position-controlled Robots__ [paper](https://arxiv.org/pdf/2003.00628). Предлагаемый метод направлен на объединение управления силой с RL для изучения задач, связанных с контактами, при использовании роботов с позиционным управлением.
|
||||
|
||||
|
||||
|
||||
### Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a Survey ([pdf](https://arxiv.org/pdf/2009.13303.pdf))
|
||||
|
||||
Авторы проанализировали, как multi-agent RL может преодолеть разрыв с реальностью в распределенных системах с несколькими роботами, где работа различных роботов не обязательно однородна.
|
||||
|
||||
|
||||
## Инструменты машинного обучения
|
||||
|
||||
|
@ -75,6 +141,9 @@ title: 'Применение машинного обучения в робото
|
|||
* [OpenAI Gym](https://gym.openai.com) - Наиболее распространённая библиотека для обучения с подкреплением. Стандарт индустрии.
|
||||
* [Deepmind Acme](https://github.com/deepmind/acme) - Вторая по популярности библиотека для RL
|
||||
* [Surreal](https://github.com/SurrealAI/surreal) - Open-Source Distributed Reinforcement Learning Framework by Stanford Vision and Learning Lab. Активно не разрабатывается.
|
||||
* [tf2rl](https://github.com/keiohta/tf2rl) - python-библиотека [основных алгоритмов RL](https://github.com/keiohta/tf2rl#algorithms) на Tensorflow2
|
||||
* [stable-baselines3](https://github.com/DLR-RM/stable-baselines3) - набор надежных реализаций алгоритмов обучения с подкреплением в PyTorch, [docs](https://stable-baselines3.readthedocs.io/en/master/index.html)
|
||||
|
||||
|
||||
### [Gym-UnrealCV](https://github.com/zfw1226/gym-unrealcv)
|
||||
|
||||
|
@ -169,7 +238,7 @@ _On-policy_ - алгоритм, где воздействует на среду
|
|||
|
||||
Алгоритмы с разделенной стратегией(off-policy) менее устойчивы и их труднее проектировать, чем алгоритмы с единой стратегией, зато у них более высокая выборочная эффективность, т. е. для обучения нужно меньше данных.
|
||||
|
||||
### Model-free, model-based
|
||||
### Model-free (MFRL), model-based (MBRL)
|
||||
|
||||
Модель описывает поведение окружеющей среды, то есть может предсказать её состояние в следующем шаге. Если модель есть и известна(model-based), то можно использовать алгоритмы планирования. Модель может быть известна заранее или формироваться в ходе взаимодействия с окружающей средой.
|
||||
|
||||
|
|
Loading…
Add table
Add a link
Reference in a new issue