ДИСТИЛЛЯЦИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ ДЕТЕКТИРОВАНИЯ И ОПИСАНИЯ КЛЮЧЕВЫХ ТОЧЕК ИЗОБРАЖЕНИЙ

Ященко Артем Владимирович, Беликов Анатолий Владимирович, Петерсон Максим Владимирович, Потапов Алексей Сергеевич

doi:10.17586/2226-1494-2020-20-3-402-409

2020 , ТОМ 20, НОМЕР 3 ( май-июнь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2020-20-3-402-409

УДК 004.272 004.032.26

ДИСТИЛЛЯЦИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ ДЕТЕКТИРОВАНИЯ И ОПИСАНИЯ КЛЮЧЕВЫХ ТОЧЕК ИЗОБРАЖЕНИЙ

Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С. Дистилляция нейросетевых моделей для детектирования и описания ключевых точек изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 3. С. 402–409. doi: 10.17586/2226-1494-2020-20-3-402-409

Аннотация

Предмет исследования. Методы сопоставления и классификации изображений, а также синхронного опреде- ления местоположения и составления карты местности широко применяются на встраиваемых и мобильных устройствах. Наиболее ресурсоемкой частью их реализации является выделение и описание ключевых точек изображений. Классические методы выделения и описания ключевых точек могут исполняться в масштабе реального времени на мобильных устройствах. Вместе с тем для современных нейросетевых методов, обладающих лучшим качеством, такой подход затруднен из-за снижения быстродействия. Таким образом, задача повышения быстродействия нейросетевых моделей для детектирования и описания ключевых точек является актуальной. С этой целью выполнено исследование дистилляции — одного из способов редукции нейросетевых моделей, что позволяет получить более компактную модель детектирования и описания ключевых точек, а так- же процедуры получения модели. Метод. Предложен способ сопряжения исходной и более компактной новой модели для последующего ее обучения по выходным значениям исходной модели. С этой целью новая модель обучается реконструировать выходные данные исходной модели без использования разметки изображений. На вход обеих сетей поступают одинаковые изображения. Основные результаты. Протестирован способ дистил- ляции нейронных сетей для задачи детектирования и описания ключевых точек. Предложены целевая функция и параметры обучения, обеспечивающие наилучшие результаты в рамках выполненного исследования. Введены новый набор данных для тестирования методов выделения ключевых точек и новый показатель качества вы- деляемых ключевых точек и соответствующих им локальных признаков. Применение обучения новой модели предложенным способом с тем же количеством параметров позволило получить большую точность сопостав- ления ключевых точек по сравнению с исходной моделью. Новая модель со значительно меньшим количеством параметров обеспечивает точность сопоставления точек, близкую к исходной модели. Практическая значимость. Предложенным способом получена более компактная модель для детектирования и описания ключевых точек изображений. Это дает возможность применять модель на встраиваемых и мобильных устройствах для синхронного определения местоположения и составления карт местности. Применение предложенной модели может повысить эффективность работы сервиса по поиску изображений на серверной стороне.

Ключевые слова: глубокое обучение, детектирование ключевых точек, локальные признаки

Список литературы

Bay H., Tuytelaars T., Van Gool L. Surf: Speeded up robust features // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 3951. P. 404–417. doi: 10.1007/11744023_32
Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An efficient alternative to SIFT or SURF // Proc. of the International Conference on Computer Vision (ICCV 2011). 2011. P. 2564–2571. doi: 10.1109/ICCV.2011.6126544
DeTone D., Malisiewicz T., Rabinovich A. SuperPoint: Self-supervised interest point detection and description // Proc. 31^st Meeting of the IEEE/CVF IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2018. P. 337–349. doi: 10.1109/CVPRW.2018.00060
Ono Y., Fua P., Trulls E., Yi K. LF-Net: learning local features from images // Advances in Neural Information Processing Systems. 2018. P. 6234–6244.
Mikolajczyk K., Schmid C. A performance evaluation of local descriptors // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. V. 27. N 10. P. 1615–1630. doi: 10.1109/TPAMI.2005.188
Cao Z., Hidalgo G., Simon T., Wei S., Sheikh Y. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Early access. doi: 10.1109/TPAMI.2019.2929257
Baltrušaitis T., Robinson P., Morency L.-P. Openface: an open source facial behavior analysis toolkit // Proc. IEEE Winter Conference on Applications of Computer Vision (WACV). 2016. P. 7477553. doi: 10.1109/WACV.2016.7477553
Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // Proc. 3^rd International Conference on Learning Representations (ICLR). 2015.
Iandola F., Moskewicz M., Karayev S., Girshick R., Darrell T., Keutzer K. Densenet: Implementing efficient convnet descriptor pyramids [Электронный ресурс]. URL: https://arxiv.org/abs/1404.1869, свободный. Яз. англ. (дата обращения: 17.01.2020).
Brock A., Donahue J., Simonyan K. Large scale gan training for high fidelity natural image synthesis // Proc. 7^th International Conference on Learning Representations (ICLR). 2019.
Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: Unified, real-time object detection // Proc. 29^th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788. doi: 10.1109/CVPR.2016.91
Zheng Z., Yang X., Yu Z., Zheng L., Yang Y., Kautz J. Joint discriminative and generative learning for person re-identification // Proc. 32^nd IEEE /CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 2133–2142. doi: 10.1109/CVPR.2019.00224
Huang Q., Zhou K., You S., Neumann U. Learning to prune filters in convolutional neural networks // Proc. 18^th IEEE Winter Conference on Applications of Computer Vision (WACV). 2018. P. 709–718. doi: 10.1109/WACV.2018.00083
Gomez A.N., Zhang I., Kamalakara S.R., Madaan D., Swersky K., Gal Y., Hinton G.E. Learning sparse networks using targeted dropout [Электронный ресурс]. URL: https://arxiv.org/abs/1905.13678, свободный. Яз. англ. (дата обращения: 18.03.2020).
Wang Y., Xu C., You S., Tao D., Xu C. CNNpack: Packing convolutional neural networks in the frequency domain // Advances in Neural Information Processing Systems. 2016. P. 253–261.
Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network [Электронныйресурс]. URL: https://arxiv.org/abs/1503.02531, свободный. Яз. англ. (дата обращения: 06.02.2020).
Wang J., Gou L., Zhang W., Yang H., Shen H.-W. Deepvid: Deep visual interpretation and diagnosis for image classifiers via knowledge distillation // IEEE Transactions on Visualization and Computer Graphics. 2019. V. 25. N 6. P. 2168–2180. doi: 10.1109/TVCG.2019.2903943
Shah S., Dey D., Lovett C., Kapoor A. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles // Field and Service Robotics. Springer, 2018. P. 621–635. doi: 10.1007/978-3-319-67361-5_40
Hartley R., Zisserman A. Multiple View Geometry in Computer Vision. Cambridge University Press, 2003. 178 p. doi: 10.1017/CBO9780511811685
Balntas V., Lenc K., Vedaldi A., Mikolajczyk K. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors // Proc. 30^th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3852–3861. doi: 10.1109/CVPR.2017.410

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License