Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-5-843-848
УДК 004.855
Трехмерная реконструкция отдельных изображений с помощью бинарного классификатора
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Ресен С.А. Трехмерная реконструкция отдельных изображений с помощью бинарного классификатора // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 843–848 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-5-843-848
Аннотация
Интеллектуальные системы требуют взаимодействия с различными сложными окружающими средами. Например, роботу может потребоваться взаимодействовать в обстановке со сложными геометрическими структурами. Для правильного определения объектов, перемещающихся в пространстве, требуется точное геометрическое обоснование. 3D-реконструкция — сложная задача, требующая большого количества изображений. В работе предлагается создание интеллектуальных систем для 3D-реконструкции из отдельных 2D-изображений. Разработан обучаемый контекст реконструкции, который для реализации синтеза использует определенные признаки. Используемые методы осуществляют кодирование признаков метки входных данных для классификации, извлекая эту информацию для принятия более обоснованных решений. Бинарная сверточная нейронная сеть (Binary Classifier Neural Network, BCNN) классифицирует, находится ли точка внутри или снаружи объекта. Система реконструкции моделирует 3D-структуру объекта и изучает параметры фильтра признаков. Геометрия и соответствующие признаки обновляются на основе функции потерь. Обучение модели не требует сжатого наблюдения для визуализации задачи реконструированных форм и переноса текстуры. Поток сети с множеством точек приводит к тому, что BCNN занимает сравнительно малый объем памяти и не ограничивается определенными классами, для которых доступны шаблоны. Исследование точности метрики показали, что модель может расширить кодировщик занятости с помощью генеративной модели, которая не запрашивает условие получения изображения и может быть обучена безусловно. Таким образом, за время, необходимое для обучения модели, создается большее количество нейронов и весовых переобученных параметров.
Ключевые слова: интеллектуальные системы, 3D-реконструкция, фильтр признаков, сверточные нейронные сети, двоичный классификатор нейронных сетей
Список литературы
Список литературы
- Häming K., Peters G.The structure from-motion reconstruction pipeline - A survey with focus on short image sequences // Kybernetika. 2010. V. 46. N 5. P. 926–937.
- Molenaar M., Eisemann E. Editing compressed high-resolution voxel scenes with attributes // Computer Graphics Forum.2023.V. 42. N 2. P. 235–243. https://doi.org/10.1111/cgf.14757
- Oechsle M., Peng S., Geiger A. UNISURF: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 5569–5579. https://doi.org/10.1109/iccv48922.2021.00554
- Petersen F., Goldluecke B., Borgelt C., Deussen O. GenDR: A generalized differentiable renderer // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 3992–4001. https://doi.org/10.1109/cvpr52688.2022.00397
- Gromniak M., Magg S., Wermter S. Neural field conditioning strategies for 2D semantic segmentation // Lecture Notes in Computer Science. 2023. V. 14255. P. 520–532. https://doi.org/10.1007/978-3-031-44210-0_42
- Zhao Z., Liu W., Chen X., Zeng X., Wang R., Cheng P., Fu B., Chen T., Yu G., Gao S. Michelangelo: Conditional 3D shape generation based on shape-image-text aligned latent representation // Advances in Neural Information Processing Systems.2023.
- Su G.-M.Joint forward and backward neural network optimization in image processing. Patent US20230084705A1. 2023.
- Greff K., Kaufman R.L., Kabra R., Watters N., Burgess C., Zoran D., Matthey L., Botvinick M., Lerchner A. Multi-object representation learning with iterative variational inference // Proc. of the 36th International Conference on Machine Learning. 2019. P. 4317–4343.
- Zanuttigh P., Minto L.Deep learning for 3D shape classification from multiple depth maps // Proc. of the IEEE International Conference on Image Processing (ICIP). 2017. P. 3615–3619. https://doi.org/10.1109/icip.2017.8296956
- Cheng F., Xiao J., Tillo T., Zhao Y. Global motion information based depth map sequence coding // Lecture Notes in Computer Science. 2015. V. 9314. P. 721–729. https://doi.org/10.1007/978-3-319-24075-6_69
- Yuan Z., Zhu Y., Li Y., Liu H., Yuan C.Make encoder great again in 3D GAN inversion through geometry and occlusion-aware encoding // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 2437–2447. https://doi.org/10.1109/iccv51070.2023.00231
- Liu F., Huang T., Zhang Q., Yao H., Zhang C., Wan F., Ye Q., Zhou Y. BEAM: Beta distribution ray denoising for multi-view 3D object detection // arXiv. 2024. arXiv:2402.03634v1. https://doi.org/10.48550/arXiv.2402.03634
- Wang X., Gupta A. Generative image modeling using style and structure adversarial networks //Lecture Notes in Computer Science. 2016. V. 9908. P. 318–335. https://doi.org/10.1007/978-3-319-46493-0_20
- Shu C., Deng J., Yu F., Liu Y.3DPPE: 3D point positional encoding for transformer-based multi-camera 3D object detection // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 3557–3566. https://doi.org/10.1109/iccv51070.2023.00331
- Naselaris T., Olman D., Stansbury K., Ugurbil J., Gallant J.L. A voxel-wise encoding model for early visual areas decodes mental images of remembered scenes // NeuroImage. 2015. V. 105. P. 215–228. https://doi.org/10.1016/j.neuroimage.2014.10.018
- Du Y.P., Chu R., Tregellas J.R. Enhancing the detection of BOLD signal in fMRI by reducing the partial volume effect // Computational and Mathematical Methods in Medicine. 2014. https://doi.org/10.1155/2014/973972
- Wen X., Zhou J., Liu Y.-S., Su H., Dong Z., Han Z. 3D shape reconstruction from 2D images with disentangled attribute flow // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 3793–3803. https://doi.org/10.1109/cvpr52688.2022.00378
- Oechsle M., Mescheder L., Niemeyer M., Strauss T., Geiger A. Texture fields: Learning texture representations in function space // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. P. 4530–4539. https://doi.org/10.1109/iccv.2019.00463
- Giannis K., Thon C., Yang G., Kwade A., Schilde C.Predicting 3D particles shapes based on 2D images by using convolutional neural network // Powder Technology.2024. V. 432. P. 119122. https://doi.org/10.1016/j.powtec.2023.119122