CosyPose - Multi-View 6D Pose Estimation

This commit is contained in:
Igor Brylyov 2023-11-27 13:06:39 +00:00
parent 3a78481673
commit 51ea3ce4c4

View file

@ -104,8 +104,15 @@ $VSD$ рассчитывается только по видимой части
Оценка позы нового объекта по одному изображению. Предлагается подход, который использует одно изображение нового объекта в качестве входных данных и предсказывает относительное положение этого объекта на новых изображениях без предварительного знания 3D-модели объекта и без необходимости обучения новым объектам и категориям.
### [PIZZA](https://github.com/nv-nguyen/pizza) '2023
Мощный подход Zero-Shot Zero-CAD к отслеживанию 6 DoF только по изображениям. Метод отслеживания 6D-перемещений объектов в видео-последовательностях RGB, когда ни обучающие изображения, ни 3D-геометрия объектов недоступны. Таким образом, в отличие от предыдущих работ, этот метод может мгновенно рассматривать неизвестные объекты в открытом мире, не требуя какой-либо предварительной информации или определенного этапа обучения. Рассматриваются две архитектуры, одна из которых основана на двух кадрах, а другая опирается на кодировщик Transformer, который может использовать произвольное количество прошлых кадров.
### [CosyPose](https://github.com/Simple-Robotics/cosypose) '2020
[Paper](https://arxiv.org/pdf/2008.08465.pdf), [Code](https://github.com/Simple-Robotics/cosypose)
Лучший RGB-only метод на BOP Challenge 2020. Для обучения использовались датасеты с видео-информацией YCB-Video и T-LESS (без текстур). Ключевая особенность метода - для оценки позиции не нужна позиция камеры, она может быть вычислена автоматически. Авторы отмечают, что от позиции камеры из датасетов (ground truth) их метод даёт ошибку от 1 до 3 %. CosyPose использует набор из нескольких RGB-изображений сцены, снятых с неизвестных точек обзора, с заранее известными объектами и реконструирует сцену, после чего восстанавливает все объекты в сцене, их 6D-позиции и точки обзора камеры.
### [Megapose](https://github.com/megapose6d/megapose6d) '2022
Идея метода заключается в том, что модель объекта передаётся в режиме исполнения вместе с RGB-изображением с выделенной областью, содержащей данный объект, которая получена на этапе обнаружения объекта (ObjectDetection).