From 51ea3ce4c45ede1fbc526eac3a1bcc20531781ed Mon Sep 17 00:00:00 2001 From: Igor Brylyov Date: Mon, 27 Nov 2023 13:06:39 +0000 Subject: [PATCH] CosyPose - Multi-View 6D Pose Estimation --- docs/technologies/cv-perception-methods.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/docs/technologies/cv-perception-methods.md b/docs/technologies/cv-perception-methods.md index bd34214..2749054 100644 --- a/docs/technologies/cv-perception-methods.md +++ b/docs/technologies/cv-perception-methods.md @@ -104,8 +104,15 @@ $VSD$ рассчитывается только по видимой части Оценка позы нового объекта по одному изображению. Предлагается подход, который использует одно изображение нового объекта в качестве входных данных и предсказывает относительное положение этого объекта на новых изображениях без предварительного знания 3D-модели объекта и без необходимости обучения новым объектам и категориям. ### [PIZZA](https://github.com/nv-nguyen/pizza) '2023 + Мощный подход Zero-Shot Zero-CAD к отслеживанию 6 DoF только по изображениям. Метод отслеживания 6D-перемещений объектов в видео-последовательностях RGB, когда ни обучающие изображения, ни 3D-геометрия объектов недоступны. Таким образом, в отличие от предыдущих работ, этот метод может мгновенно рассматривать неизвестные объекты в открытом мире, не требуя какой-либо предварительной информации или определенного этапа обучения. Рассматриваются две архитектуры, одна из которых основана на двух кадрах, а другая опирается на кодировщик Transformer, который может использовать произвольное количество прошлых кадров. +### [CosyPose](https://github.com/Simple-Robotics/cosypose) '2020 + +[Paper](https://arxiv.org/pdf/2008.08465.pdf), [Code](https://github.com/Simple-Robotics/cosypose) + +Лучший RGB-only метод на BOP Challenge 2020. Для обучения использовались датасеты с видео-информацией YCB-Video и T-LESS (без текстур). Ключевая особенность метода - для оценки позиции не нужна позиция камеры, она может быть вычислена автоматически. Авторы отмечают, что от позиции камеры из датасетов (ground truth) их метод даёт ошибку от 1 до 3 %. CosyPose использует набор из нескольких RGB-изображений сцены, снятых с неизвестных точек обзора, с заранее известными объектами и реконструирует сцену, после чего восстанавливает все объекты в сцене, их 6D-позиции и точки обзора камеры. + ### [Megapose](https://github.com/megapose6d/megapose6d) '2022 Идея метода заключается в том, что модель объекта передаётся в режиме исполнения вместе с RGB-изображением с выделенной областью, содержащей данный объект, которая получена на этапе обнаружения объекта (ObjectDetection).