Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-1-118-123
УДК 004.896
Использование монокулярной оптики при оценке глубины объектов для двумерного картирования моделируемой среды
Читать статью полностью

Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Бархум М., Пыркин А.А. Использование монокулярной оптики при оценке глубины объектов для двумерного картирования моделируемой среды // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 1. С. 118–123 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-1-118-123
Аннотация
Введение. Рассмотрена задача построения карты двумерной среды. Предложен алгоритм оценки на основе монокулярной оптики и RGB-изображений. Алгоритм позволяет получать результаты, сопоставимые с подходами на основе дорогостоящих датчиков, таких как RGBD-камеры и лидары. Метод. Решение задачи включает нескольких этапов. На начальном этапе выполняется обучение нейронной сети, которая формирует относительную карту несоответствия (смещений) на основе входного потока RGB-изображений от RGBD- камеры. С использованием измерений глубин от той же камеры выполняется оценка двух параметров, связывающих относительную и абсолютную карты смещений в виде линейного регрессионного соотношения. На основе более простой RGB-камеры, путем применения нейронной сети и оценок масштабирующих параметров формируется оценка абсолютной карты смещений, позволяющей получить оценку карты глубин. Таким образом, синтезирован виртуальный сканер, который формирует данные о глубине для построения карты окружающей среды. Основные результаты. Представленный алгоритм апробирован при моделировании движения мобильного робота в среде ROS 2.0. Удалось достичь более быстрого прогнозирования глубины объектов по сравнению с другими алгоритмами оценки глубины. Карты, сгенерированные согласно разработанному алгоритму, продемонстрировали высокую степень совпадения с картами, полученными с помощью идеальной RGBD-камеры. Обсуждение. Предложенный алгоритм может найти применение в ключевых задачах управления мобильными роботами, такими как избегание препятствий и планирование пути. Алгоритм может быть использован при разметке карт по областям с различной степенью сложности прохождения, повышая безопасность и адаптивность навигации мобильных роботов.
Ключевые слова: монокулярная оценка глубины, картографирование, линейная регрессия, карты несоответствия (смещений), нейронные сети
Благодарности. Работа выполнена при поддержке Министерства науки и высшего образования Российской Федерации (госзадание 2019-0898).
Список литературы
Благодарности. Работа выполнена при поддержке Министерства науки и высшего образования Российской Федерации (госзадание 2019-0898).
Список литературы
- Bhat S.F., Alhashim I., Wonka P. AdaBins: Depth estimation using adaptive bins // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. P. 4009–4018. https://doi.org/10.1109/cvpr46437.2021.00400
- Li Z., Wang X., Liu X., Jiang J. BinsFormer: Revisiting adaptive bins for monocular depth estimation // arXiv. 2022. arXiv:2204.00987. https://doi.org/10.48550/arXiv.2204.00987
- Zhang S., Yang L., Mi M.B., Zheng X., Yao A. Improving deep regression with ordinal entropy // arXiv. 2023. arXiv:2301.08915. https://doi.org/10.48550/arXiv.2301.08915
- Ranftl R., Bochkovskiy A., Koltun V. Vision transformers for dense prediction // Proc. of the IEEE/CVF International Conference on Computer Vision. 2021. P. 12179–12188. https://doi.org/10.1109/iccv48922.2021.01196
- Xie Z., Geng Z., Hu J., Zhang Z., Hu H., Cao Y. Revealing the dark secrets of masked image modeling // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. P. 14475–14485. https://doi.org/10.1109/cvpr52729.2023.01391
- Birkl R., Wofk D., Müller M. MiDaS v3.1 – A Model zoo for robust monocular relative depth estimation // arXiv. 2023. arXiv:2307.14460. https://doi.org/10.48550/arXiv.2307.14460
- Bhat S.F., Birkl R., Wofk D., Wonka P., Müller M. ZoeDepth: Zero-shot transfer by combining relative and metric depth // arXiv. 2023. arXiv:2302.12288. https://doi.org/10.48550/arXiv.2302.12288
- Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. Towards robust monocular depth estimation: mixing datasets for zero-shot cross-dataset transfer // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. V. 44. N 3. P. 1623–1637 https://doi.org/10.1109/tpami.2020.3019967
- Xing X., Cai Y., Lu T., Yang Y., Wen D. Joint self-supervised monocular depth estimation and SLAM // Proc. of the 26th International Conference on Pattern Recognition (ICPR). 2022. P. 4030–4036. https://doi.org/10.1109/icpr56361.2022.9956576
- Geng M., Shang S., Ding B., Wang H., Zhang P. Unsupervised learning-based depth estimation-aided visual slam approach // Circuits, Systems, and Signal Processing. 2020. V. 39. P. 543–570. https://doi.org/10.1007/s00034-019-01173-3
- Li Z., Snavely N. MegaDepth: Learning single-view depth prediction from internet photos // Proc. of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018. P. 2041–2050. https://doi.org/10.1109/cvpr.2018.00218
- Tran M., Ly N. Mobile robot planner with low-cost cameras using deep reinforcement learning // Proc. of the 7th NAFOSTED Conference on Information and Computer Science (NICS). 2020. P. 54–59. https://doi.org/10.1109/nics51282.2020.9335852
- Hess W., Kohler D., Rapp H., Andor D. Real-time loop closure in 2D LIDAR SLAM // Proc. of the 2016 IEEE International Conference on Robotics and Automation (ICRA). 2016. P. 1271–1278. https://doi.org/10.1109/icra.2016.7487258
- Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network // Advances in Neural Information Processing Systems. 2014. V. 27. P. 2, 5, 6.
- Garg R., Kumar B.G.V., Carneiro G., Reid I. Unsupervised CNN for single view depth estimation: Geometry to the rescue // Lecture Notes in Computer Science. 2016. V. 9912. P. 740–756. https://doi.org/10.1007/978-3-319-46484-8_45