doi: 10.17586/2226-1494-2024-24-5-843-848


УДК 004.855

Трехмерная реконструкция отдельных изображений с помощью бинарного классификатора

Саллама Р.А.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Ресен С.А. Трехмерная реконструкция отдельных изображений с помощью бинарного классификатора // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 843–848 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-5-843-848


Аннотация
Интеллектуальные системы требуют взаимодействия с различными сложными окружающими средами. Например, роботу может потребоваться взаимодействовать в обстановке со сложными геометрическими структурами. Для правильного определения объектов, перемещающихся в пространстве, требуется точное геометрическое обоснование. 3D-реконструкция — сложная задача, требующая большого количества изображений. В работе предлагается создание интеллектуальных систем для 3D-реконструкции из отдельных 2D-изображений. Разработан обучаемый контекст реконструкции, который для реализации синтеза использует определенные признаки. Используемые методы осуществляют кодирование признаков метки входных данных для классификации, извлекая эту информацию для принятия более обоснованных решений. Бинарная сверточная нейронная сеть (Binary Classifier Neural Network, BCNN) классифицирует, находится ли точка внутри или снаружи объекта. Система реконструкции моделирует 3D-структуру объекта и изучает параметры фильтра признаков. Геометрия и соответствующие признаки обновляются на основе функции потерь. Обучение модели не требует сжатого наблюдения для визуализации задачи реконструированных форм и переноса текстуры. Поток сети с множеством точек приводит к тому, что BCNN занимает сравнительно малый объем памяти и не ограничивается определенными классами, для которых доступны шаблоны. Исследование точности метрики показали, что модель может расширить кодировщик занятости с помощью генеративной модели, которая не запрашивает условие получения изображения и может быть обучена безусловно. Таким образом, за время, необходимое для обучения модели, создается большее количество нейронов и весовых переобученных параметров.

Ключевые слова: интеллектуальные системы, 3D-реконструкция, фильтр признаков, сверточные нейронные сети, двоичный классификатор нейронных сетей

Список литературы
  1. Häming K., Peters G.The structure from-motion reconstruction pipeline - A survey with focus on short image sequences // Kybernetika. 2010. V. 46. N 5. P. 926–937.
  2. Molenaar M., Eisemann E. Editing compressed high-resolution voxel scenes with attributes // Computer Graphics Forum.2023.V. 42. N 2. P. 235–243. https://doi.org/10.1111/cgf.14757
  3. Oechsle M., Peng S., Geiger A. UNISURF: Unifying neural implicit surfaces and radiance fields for multi-view reconstruction // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 5569–5579. https://doi.org/10.1109/iccv48922.2021.00554
  4. Petersen F., Goldluecke B., Borgelt C., Deussen O. GenDR: A generalized differentiable renderer // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 3992–4001. https://doi.org/10.1109/cvpr52688.2022.00397
  5. Gromniak M., Magg S., Wermter S. Neural field conditioning strategies for 2D semantic segmentation // Lecture Notes in Computer Science. 2023. V. 14255. P. 520–532. https://doi.org/10.1007/978-3-031-44210-0_42
  6. Zhao Z., Liu W., Chen X., Zeng X., Wang R., Cheng P., Fu B., Chen T., Yu G., Gao S. Michelangelo: Conditional 3D shape generation based on shape-image-text aligned latent representation // Advances in Neural Information Processing Systems.2023.
  7. Su G.-M.Joint forward and backward neural network optimization in image processing. Patent US20230084705A1. 2023.
  8. Greff K., Kaufman R.L., Kabra R., Watters N., Burgess C., Zoran D., Matthey L., Botvinick M., Lerchner A. Multi-object representation learning with iterative variational inference // Proc. of the 36th International Conference on Machine Learning. 2019. P. 4317–4343.
  9. Zanuttigh P., Minto L.Deep learning for 3D shape classification from multiple depth maps // Proc. of the IEEE International Conference on Image Processing (ICIP). 2017. P. 3615–3619. https://doi.org/10.1109/icip.2017.8296956
  10. Cheng F., Xiao J., Tillo T., Zhao Y. Global motion information based depth map sequence coding // Lecture Notes in Computer Science. 2015. V. 9314. P. 721–729. https://doi.org/10.1007/978-3-319-24075-6_69
  11. Yuan Z., Zhu Y., Li Y., Liu H., Yuan C.Make encoder great again in 3D GAN inversion through geometry and occlusion-aware encoding // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 2437–2447. https://doi.org/10.1109/iccv51070.2023.00231
  12. Liu F., Huang T., Zhang Q., Yao H., Zhang C., Wan F., Ye Q., Zhou Y. BEAM: Beta distribution ray denoising for multi-view 3D object detection // arXiv. 2024. arXiv:2402.03634v1. https://doi.org/10.48550/arXiv.2402.03634
  13. Wang X., Gupta A. Generative image modeling using style and structure adversarial networks //Lecture Notes in Computer Science. 2016. V. 9908. P. 318–335. https://doi.org/10.1007/978-3-319-46493-0_20
  14. Shu C., Deng J., Yu F., Liu Y.3DPPE: 3D point positional encoding for transformer-based multi-camera 3D object detection // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 3557–3566. https://doi.org/10.1109/iccv51070.2023.00331
  15. Naselaris T., Olman D., Stansbury K., Ugurbil J., Gallant J.L. A voxel-wise encoding model for early visual areas decodes mental images of remembered scenes // NeuroImage. 2015. V. 105. P. 215–228. https://doi.org/10.1016/j.neuroimage.2014.10.018
  16. Du Y.P., Chu R., Tregellas J.R. Enhancing the detection of BOLD signal in fMRI by reducing the partial volume effect // Computational and Mathematical Methods in Medicine. 2014. https://doi.org/10.1155/2014/973972
  17. Wen X., Zhou J., Liu Y.-S., Su H., Dong Z., Han Z. 3D shape reconstruction from 2D images with disentangled attribute flow // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 3793–3803. https://doi.org/10.1109/cvpr52688.2022.00378
  18. Oechsle M., Mescheder L., Niemeyer M., Strauss T., Geiger A. Texture fields: Learning texture representations in function space // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019. P. 4530–4539. https://doi.org/10.1109/iccv.2019.00463
  19. Giannis K., Thon C., Yang G., Kwade A., Schilde C.Predicting 3D particles shapes based on 2D images by using convolutional neural network // Powder Technology.2024. V. 432. P. 119122. https://doi.org/10.1016/j.powtec.2023.119122


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика