doi: 10.17586/2226-1494-2021-21-1-92-101


УДК 004.272 004.032.26

ХОРОШАЯ ТОЧКА: ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ ОБНАРУЖЕНИЮ И ОПИСАНИЮ ПО КЛЮЧЕВЫМ ТОЧКАМ

Беликов А.В., Потапов А.С., Ященко А.В.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:

Беликов А.В., Потапов А.С., Ященко А.В. Хорошая точка: обучение без учителяобнаружениюиописаниюпоключевымточкам//Научно-технический вестник информационных технологий,механики и оптики.2021.Т.21,№1.С.92–101(на англ.яз.). doi:10.17586/2226-1494-2021-21-1-92-101



Аннотация
Предмет исследования. Алгоритмы выделения и описания ключевых точек широко применяются в компьютерном зрении. Обычно в качестве детектора ключевых точек выступает детектор углов, что относится в том числе и к нейросетевым детекторам. Для некоторых типов изображений, получаемых в том числе в медицине, такие детекторы не подходят из-за малого количества таких ключевых точек. В работе ставится задача обучения нейросетевого детектора ключевых точек на неразмеченных данных. Метод. Предложено определение ключевых точек, не зависящее от конкретных визуальных признаков. Рассмотрен способ обучения нейросетевой модели детектирования и описания ключевых точек на неразмеченных данных. В основе метода лежит использование гомографической трансформации изображений. Нейросетевая модель обучается детектировать одни и те же ключевые точки на парах зашумленных изображений, связанных гомографической трансформацией. Для обучения детектора используются только позитивные примеры, а именно только точки, правильно сопоставляемые по признакам, выдаваемым нейросетевой моделью описания ключевых точек. Основные результаты. Представленный алгоритм обучения без учителя использован для обучения нейросетевой модели. Для удобства сравнения предложенная модель имеет схожую архитектуру и такое же число параметров, как и модель, обученная с учителем. Проверка моделей выполнена на трех различных наборах данных: с естественными и с синтетическими изображениями, и на фотографиях сетчатки глаза. Предложенная модель показывает схожие результаты с обученной с учителем на естественных изображениях и лучшие — на фотографиях сетчатки глаза. Также демонстрируется улучшение результатов за счет дополнительного обучения рассмотренной модели на изображениях из целевого домена, что является преимуществом относительно модели, обучаемой на размеченных данных. Для сравнения использовалось гармоническое среднее от следующих показателей: точность и полнота сопоставления по дескрипторам, воспроизводимость ключевых точек и покрытие изображения ключевыми точками. Практическая значимость. Алгоритм позволяет обучать нейросетевой детектор ключевых точек вместе с моделью описанию ключевых точек на изображениях из целевого домена, при этом не требуя трудозатрат на разметку обучающего набора данных, что позволяет снизить трудозатраты на разработку системы, использующей детектор.

Ключевые слова: обучение без учителя, глубокое обучение, детектирование ключевых точек, локальные признаки

Список литературы
1. Harris C., Stephens M. A combined corner and edge detector // Proc. of the Alvey Vision Conference. UK, Manchester. 1988. P. 23.1–23.6. doi: 10.5244/C.2.23
2. Funayama R., Yanagihara H., Van Gool L., Tuytelaars T., Bay H. Robust interest point detector and descriptor. Patent US8165401 B2. 2012.
3. Rosten E., Drummond T. Machine learning for high-speed corner detection // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 3951. P. 430–443. doi: 10.1007/11744023_34
4. Sarlin P.E., DeTone D., Malisiewicz T., Rabinovich A. SuperGlue: Learning feature matching with graph neural networks // Proc. of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2020. P. 4937–4946. doi: 10.1109/CVPR42600.2020.00499
5. Mitchell T.M. Machine Learning. McGraw Hill, 1997. 414 p.
6. DeTone D., Malisiewicz T., Rabinovich A. Superpoint: Self- supervised interest point detection and description // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2018. P. 337–349. doi: 10.1109/CVPRW.2018.00060
7. Truong P., Apostolopoulos S., Mosinska A., Stucky S., Ciller C., Zanet S.D. GLAMpoints: Greedily learned accurate match points // Proc. of the IEEE International Conference on Computer Vision. Korea, Seoul. 2019. P. 10732–10741. doi: 10.1109/ICCV.2019.01083
8. Jakab T., Gupta A., Bilen H., Vedaldi A. Unsupervised learning of object landmarks through conditional image generation // Advances in Neural Information Processing Systems. 2018. P. 4016–4027.
9. Kulkarni T.D., Gupta A., Ionescu C., Borgeaud S., Reynolds M., Zisserman A., Mnih V. Unsupervised learning of object keypoints for perception and control // Advances in Neural Information Processing Systems. 2019. V. 32. P. 10723–10733.
10. Ono Y., Trulls E., Fua P., Yi K.M. LF-Net: learning local features from images // Advances in Neural Information Processing Systems. 2018. P. 6234–6244.
11. Maas A.L., Hannun A.Y., Ng A.Y. Rectifier nonlinearities improve neural network acoustic models // Proc. 30th International Conference on Machine Learning. USA, Atlanta. 2013. P. 3.
12. Loshchilov I., Hutter F. Decoupled weight decay regularization // Proc. 7th International Conference on Learning Representations (ICLR 2019). 2019.
13. Lin T.-Y., Maire M., Belongie S., Hays J., Perona P., Ramanan D., Dollár P., Zitnick C.L. Microsoft COCO: Common objects in context // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2014. V. 8693. P. 740–755. doi: 10.1007/978-3-319-10602-1_48
14. Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С. Дистилляция нейросетевых моделей для детектирования и описания ключевых точек изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 3. С. 402–409. doi: 10.17586/2226-1494-2020-20-3-402-409
15. Irschara A., Zach C., Frahm J.M., Bischof H. From structure-from- motion point clouds to fast location recognition // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2009. P. 2599–2606. doi: 10.1109/CVPRW.2009.5206587
16. Hernandez-Matas C., Zabulis X., Triantafyllou A., Anyfanti P., Douma S., Argyros A.A. FIRE: Fundus image registration dataset // Journal for Modeling in Ophthalmology. 2017. V. 1. N 4. P. 16–28.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика