doi: 10.17586/2226-1494-2020-20-3-402-409


УДК 004.272 004.032.26

ДИСТИЛЛЯЦИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ ДЕТЕКТИРОВАНИЯ И ОПИСАНИЯ КЛЮЧЕВЫХ ТОЧЕК ИЗОБРАЖЕНИЙ

Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С. Дистилляция нейросетевых моделей для детектирования и описания ключевых точек изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 3. С. 402–409. doi: 10.17586/2226-1494-2020-20-3-402-409


Аннотация
Предмет исследования. Методы сопоставления и классификации изображений, а также синхронного опреде- ления местоположения и составления карты местности широко применяются на встраиваемых и мобильных устройствах. Наиболее ресурсоемкой частью их реализации является выделение и описание ключевых точек изображений. Классические методы выделения и описания ключевых точек могут исполняться в масштабе реального времени на мобильных устройствах. Вместе с тем для современных нейросетевых методов, обладающих лучшим качеством, такой подход затруднен из-за снижения быстродействия. Таким образом, задача повышения быстродействия нейросетевых моделей для детектирования и описания ключевых точек является актуальной. С этой целью выполнено исследование дистилляции — одного из способов редукции нейросетевых моделей, что позволяет получить более компактную модель детектирования и описания ключевых точек, а так- же процедуры получения модели. Метод. Предложен способ сопряжения исходной и более компактной новой модели для последующего ее обучения по выходным значениям исходной модели. С этой целью новая модель обучается реконструировать выходные данные исходной модели без использования разметки изображений. На вход обеих сетей поступают одинаковые изображения. Основные результаты. Протестирован способ дистил- ляции нейронных сетей для задачи детектирования и описания ключевых точек. Предложены целевая функция и параметры обучения, обеспечивающие наилучшие результаты в рамках выполненного исследования. Введены новый набор данных для тестирования методов выделения ключевых точек и новый показатель качества вы- деляемых ключевых точек и соответствующих им локальных признаков. Применение обучения новой модели предложенным способом с тем же количеством параметров позволило получить большую точность сопостав- ления ключевых точек по сравнению с исходной моделью. Новая модель со значительно меньшим количеством параметров обеспечивает точность сопоставления точек, близкую к исходной модели. Практическая значимость. Предложенным способом получена более компактная модель для детектирования и описания ключевых точек изображений. Это дает возможность применять модель на встраиваемых и мобильных устройствах для синхронного определения местоположения и составления карт местности. Применение предложенной модели может повысить эффективность работы сервиса по поиску изображений на серверной стороне.

Ключевые слова: глубокое обучение, детектирование ключевых точек, локальные признаки

Список литературы
  1. Bay H., Tuytelaars T., Van Gool L. Surf: Speeded up robust features // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 3951. P. 404–417. doi: 10.1007/11744023_32
  2. Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An efficient alternative to SIFT or SURF // Proc. of the International Conference on Computer Vision (ICCV 2011). 2011. P. 2564–2571. doi: 10.1109/ICCV.2011.6126544
  3. DeTone D., Malisiewicz T., Rabinovich A. SuperPoint: Self-supervised interest point detection and description // Proc. 31st Meeting of the IEEE/CVF IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2018. P. 337–349. doi: 10.1109/CVPRW.2018.00060
  4. Ono Y., Fua P., Trulls E., Yi K. LF-Net: learning local features from images // Advances in Neural Information Processing Systems. 2018. P. 6234–6244.
  5. Mikolajczyk K., Schmid C. A performance evaluation of local descriptors // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. V. 27. N 10. P. 1615–1630. doi: 10.1109/TPAMI.2005.188
  6. Cao Z., Hidalgo G., Simon T., Wei S., Sheikh Y. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Early access. doi: 10.1109/TPAMI.2019.2929257
  7. Baltrušaitis T., Robinson P., Morency L.-P. Openface: an open source facial behavior analysis toolkit // Proc. IEEE Winter Conference on Applications of Computer Vision (WACV). 2016. P. 7477553. doi: 10.1109/WACV.2016.7477553
  8. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // Proc. 3rd International Conference on Learning Representations (ICLR). 2015.
  9. Iandola F., Moskewicz M., Karayev S., Girshick R., Darrell T., Keutzer K. Densenet: Implementing efficient convnet descriptor pyramids [Электронный ресурс]. URL: https://arxiv.org/abs/1404.1869, свободный. Яз. англ. (дата обращения: 17.01.2020).
  10. Brock A., Donahue J., Simonyan K. Large scale gan training for high fidelity natural image synthesis // Proc. 7th International Conference on Learning Representations (ICLR). 2019.
  11. Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: Unified, real-time object detection // Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788. doi: 10.1109/CVPR.2016.91
  12. Zheng Z., Yang X., Yu Z., Zheng L., Yang Y., Kautz J. Joint discriminative and generative learning for person re-identification // Proc. 32nd IEEE /CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 2133–2142. doi: 10.1109/CVPR.2019.00224
  13. Huang Q., Zhou K., You S., Neumann U. Learning to prune filters in convolutional neural networks // Proc. 18th IEEE Winter Conference on Applications of Computer Vision (WACV). 2018. P. 709–718. doi: 10.1109/WACV.2018.00083
  14. Gomez A.N., Zhang I., Kamalakara S.R., Madaan D., Swersky K., Gal Y., Hinton G.E. Learning sparse networks using targeted dropout [Электронный ресурс]. URL: https://arxiv.org/abs/1905.13678, свободный. Яз. англ. (дата обращения: 18.03.2020).
  15. Wang Y., Xu C., You S., Tao D., Xu C. CNNpack: Packing convolutional neural networks in the frequency domain // Advances in Neural Information Processing Systems. 2016. P. 253–261.
  16. Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network [Электронныйресурс]. URL: https://arxiv.org/abs/1503.02531, свободный. Яз. англ. (дата обращения: 06.02.2020).
  17. Wang J., Gou L., Zhang W., Yang H., Shen H.-W. Deepvid: Deep visual interpretation and diagnosis for image classifiers via knowledge distillation // IEEE Transactions on Visualization and Computer Graphics. 2019. V. 25. N 6. P. 2168–2180. doi: 10.1109/TVCG.2019.2903943
  18. Shah S., Dey D., Lovett C., Kapoor A. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles // Field and Service Robotics. Springer, 2018. P. 621–635. doi: 10.1007/978-3-319-67361-5_40
  19. Hartley R., Zisserman A. Multiple View Geometry in Computer Vision. Cambridge University Press, 2003. 178 p. doi: 10.1017/CBO9780511811685
  20. Balntas V., Lenc K., Vedaldi A., Mikolajczyk K. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors // Proc. 30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3852–3861. doi: 10.1109/CVPR.2017.410


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика