Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2020-20-3-402-409
УДК 004.272 004.032.26
ДИСТИЛЛЯЦИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ ДЕТЕКТИРОВАНИЯ И ОПИСАНИЯ КЛЮЧЕВЫХ ТОЧЕК ИЗОБРАЖЕНИЙ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С. Дистилляция нейросетевых моделей для детектирования и описания ключевых точек изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 3. С. 402–409. doi: 10.17586/2226-1494-2020-20-3-402-409
Аннотация
Предмет исследования. Методы сопоставления и классификации изображений, а также синхронного опреде- ления местоположения и составления карты местности широко применяются на встраиваемых и мобильных устройствах. Наиболее ресурсоемкой частью их реализации является выделение и описание ключевых точек изображений. Классические методы выделения и описания ключевых точек могут исполняться в масштабе реального времени на мобильных устройствах. Вместе с тем для современных нейросетевых методов, обладающих лучшим качеством, такой подход затруднен из-за снижения быстродействия. Таким образом, задача повышения быстродействия нейросетевых моделей для детектирования и описания ключевых точек является актуальной. С этой целью выполнено исследование дистилляции — одного из способов редукции нейросетевых моделей, что позволяет получить более компактную модель детектирования и описания ключевых точек, а так- же процедуры получения модели. Метод. Предложен способ сопряжения исходной и более компактной новой модели для последующего ее обучения по выходным значениям исходной модели. С этой целью новая модель обучается реконструировать выходные данные исходной модели без использования разметки изображений. На вход обеих сетей поступают одинаковые изображения. Основные результаты. Протестирован способ дистил- ляции нейронных сетей для задачи детектирования и описания ключевых точек. Предложены целевая функция и параметры обучения, обеспечивающие наилучшие результаты в рамках выполненного исследования. Введены новый набор данных для тестирования методов выделения ключевых точек и новый показатель качества вы- деляемых ключевых точек и соответствующих им локальных признаков. Применение обучения новой модели предложенным способом с тем же количеством параметров позволило получить большую точность сопостав- ления ключевых точек по сравнению с исходной моделью. Новая модель со значительно меньшим количеством параметров обеспечивает точность сопоставления точек, близкую к исходной модели. Практическая значимость. Предложенным способом получена более компактная модель для детектирования и описания ключевых точек изображений. Это дает возможность применять модель на встраиваемых и мобильных устройствах для синхронного определения местоположения и составления карт местности. Применение предложенной модели может повысить эффективность работы сервиса по поиску изображений на серверной стороне.
Ключевые слова: глубокое обучение, детектирование ключевых точек, локальные признаки
Список литературы
Список литературы
-
Bay H., Tuytelaars T., Van Gool L. Surf: Speeded up robust features // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 3951. P. 404–417. doi: 10.1007/11744023_32
-
Rublee E., Rabaud V., Konolige K., Bradski G. ORB: An efficient alternative to SIFT or SURF // Proc. of the International Conference on Computer Vision (ICCV 2011). 2011. P. 2564–2571. doi: 10.1109/ICCV.2011.6126544
-
DeTone D., Malisiewicz T., Rabinovich A. SuperPoint: Self-supervised interest point detection and description // Proc. 31st Meeting of the IEEE/CVF IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2018. P. 337–349. doi: 10.1109/CVPRW.2018.00060
-
Ono Y., Fua P., Trulls E., Yi K. LF-Net: learning local features from images // Advances in Neural Information Processing Systems. 2018. P. 6234–6244.
-
Mikolajczyk K., Schmid C. A performance evaluation of local descriptors // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. V. 27. N 10. P. 1615–1630. doi: 10.1109/TPAMI.2005.188
-
Cao Z., Hidalgo G., Simon T., Wei S., Sheikh Y. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Early access. doi: 10.1109/TPAMI.2019.2929257
-
Baltrušaitis T., Robinson P., Morency L.-P. Openface: an open source facial behavior analysis toolkit // Proc. IEEE Winter Conference on Applications of Computer Vision (WACV). 2016. P. 7477553. doi: 10.1109/WACV.2016.7477553
-
Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition // Proc. 3rd International Conference on Learning Representations (ICLR). 2015.
-
Iandola F., Moskewicz M., Karayev S., Girshick R., Darrell T., Keutzer K. Densenet: Implementing efficient convnet descriptor pyramids [Электронный ресурс]. URL: https://arxiv.org/abs/1404.1869, свободный. Яз. англ. (дата обращения: 17.01.2020).
-
Brock A., Donahue J., Simonyan K. Large scale gan training for high fidelity natural image synthesis // Proc. 7th International Conference on Learning Representations (ICLR). 2019.
-
Redmon J., Divvala S., Girshick R., Farhadi A. You only look once: Unified, real-time object detection // Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 779–788. doi: 10.1109/CVPR.2016.91
-
Zheng Z., Yang X., Yu Z., Zheng L., Yang Y., Kautz J. Joint discriminative and generative learning for person re-identification // Proc. 32nd IEEE /CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 2133–2142. doi: 10.1109/CVPR.2019.00224
-
Huang Q., Zhou K., You S., Neumann U. Learning to prune filters in convolutional neural networks // Proc. 18th IEEE Winter Conference on Applications of Computer Vision (WACV). 2018. P. 709–718. doi: 10.1109/WACV.2018.00083
-
Gomez A.N., Zhang I., Kamalakara S.R., Madaan D., Swersky K., Gal Y., Hinton G.E. Learning sparse networks using targeted dropout [Электронный ресурс]. URL: https://arxiv.org/abs/1905.13678, свободный. Яз. англ. (дата обращения: 18.03.2020).
-
Wang Y., Xu C., You S., Tao D., Xu C. CNNpack: Packing convolutional neural networks in the frequency domain // Advances in Neural Information Processing Systems. 2016. P. 253–261.
-
Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network [Электронныйресурс]. URL: https://arxiv.org/abs/1503.02531, свободный. Яз. англ. (дата обращения: 06.02.2020).
-
Wang J., Gou L., Zhang W., Yang H., Shen H.-W. Deepvid: Deep visual interpretation and diagnosis for image classifiers via knowledge distillation // IEEE Transactions on Visualization and Computer Graphics. 2019. V. 25. N 6. P. 2168–2180. doi: 10.1109/TVCG.2019.2903943
-
Shah S., Dey D., Lovett C., Kapoor A. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles // Field and Service Robotics. Springer, 2018. P. 621–635. doi: 10.1007/978-3-319-67361-5_40
-
Hartley R., Zisserman A. Multiple View Geometry in Computer Vision. Cambridge University Press, 2003. 178 p. doi: 10.1017/CBO9780511811685
-
Balntas V., Lenc K., Vedaldi A., Mikolajczyk K. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors // Proc. 30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. P. 3852–3861. doi: 10.1109/CVPR.2017.410