ХОРОШАЯ ТОЧКА: ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ ОБНАРУЖЕНИЮ И ОПИСАНИЮ ПО КЛЮЧЕВЫМ ТОЧКАМ

Беликов Анатолий Владимирович, Потапов Алексей Сергеевич, Ященко Артем Владимирович

doi:10.17586/2226-1494-2021-21-1-92-101

2021 , ТОМ 21, НОМЕР 1 ( январь-февраль )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2021-21-1-92-101

УДК 004.272 004.032.26

ХОРОШАЯ ТОЧКА: ОБУЧЕНИЕ БЕЗ УЧИТЕЛЯ ОБНАРУЖЕНИЮ И ОПИСАНИЮ ПО КЛЮЧЕВЫМ ТОЧКАМ

Беликов А.В., Потапов А.С., Ященко А.В.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Беликов А.В., Потапов А.С., Ященко А.В. Хорошая точка: обучение без учителяобнаружениюиописаниюпоключевымточкам//Научно-технический вестник информационных технологий,механики и оптики.2021.Т.21,№1.С.92–101(на англ.яз.). doi:10.17586/2226-1494-2021-21-1-92-101

Аннотация

Предмет исследования. Алгоритмы выделения и описания ключевых точек широко применяются в компьютерном зрении. Обычно в качестве детектора ключевых точек выступает детектор углов, что относится в том числе и к нейросетевым детекторам. Для некоторых типов изображений, получаемых в том числе в медицине, такие детекторы не подходят из-за малого количества таких ключевых точек. В работе ставится задача обучения нейросетевого детектора ключевых точек на неразмеченных данных. Метод. Предложено определение ключевых точек, не зависящее от конкретных визуальных признаков. Рассмотрен способ обучения нейросетевой модели детектирования и описания ключевых точек на неразмеченных данных. В основе метода лежит использование гомографической трансформации изображений. Нейросетевая модель обучается детектировать одни и те же ключевые точки на парах зашумленных изображений, связанных гомографической трансформацией. Для обучения детектора используются только позитивные примеры, а именно только точки, правильно сопоставляемые по признакам, выдаваемым нейросетевой моделью описания ключевых точек. Основные результаты. Представленный алгоритм обучения без учителя использован для обучения нейросетевой модели. Для удобства сравнения предложенная модель имеет схожую архитектуру и такое же число параметров, как и модель, обученная с учителем. Проверка моделей выполнена на трех различных наборах данных: с естественными и с синтетическими изображениями, и на фотографиях сетчатки глаза. Предложенная модель показывает схожие результаты с обученной с учителем на естественных изображениях и лучшие — на фотографиях сетчатки глаза. Также демонстрируется улучшение результатов за счет дополнительного обучения рассмотренной модели на изображениях из целевого домена, что является преимуществом относительно модели, обучаемой на размеченных данных. Для сравнения использовалось гармоническое среднее от следующих показателей: точность и полнота сопоставления по дескрипторам, воспроизводимость ключевых точек и покрытие изображения ключевыми точками. Практическая значимость. Алгоритм позволяет обучать нейросетевой детектор ключевых точек вместе с моделью описанию ключевых точек на изображениях из целевого домена, при этом не требуя трудозатрат на разметку обучающего набора данных, что позволяет снизить трудозатраты на разработку системы, использующей детектор.

Ключевые слова: обучение без учителя, глубокое обучение, детектирование ключевых точек, локальные признаки

Список литературы

1. Harris C., Stephens M. A combined corner and edge detector // Proc. of the Alvey Vision Conference. UK, Manchester. 1988. P. 23.1–23.6. doi: 10.5244/C.2.23

2. Funayama R., Yanagihara H., Van Gool L., Tuytelaars T., Bay H. Robust interest point detector and descriptor. Patent US8165401 B2. 2012.

3. Rosten E., Drummond T. Machine learning for high-speed corner detection // Lecture Notes in Computer Science (including subseries Lecture Notes in Artiﬁcial Intelligence and Lecture Notes in Bioinformatics). 2006. V. 3951. P. 430–443. doi: 10.1007/11744023_34

4. Sarlin P.E., DeTone D., Malisiewicz T., Rabinovich A. SuperGlue: Learning feature matching with graph neural networks // Proc. of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2020. P. 4937–4946. doi: 10.1109/CVPR42600.2020.00499

5. Mitchell T.M. Machine Learning. McGraw Hill, 1997. 414 p.

6. DeTone D., Malisiewicz T., Rabinovich A. Superpoint: Self- supervised interest point detection and description // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2018. P. 337–349. doi: 10.1109/CVPRW.2018.00060

7. Truong P., Apostolopoulos S., Mosinska A., Stucky S., Ciller C., Zanet S.D. GLAMpoints: Greedily learned accurate match points // Proc. of the IEEE International Conference on Computer Vision. Korea, Seoul. 2019. P. 10732–10741. doi: 10.1109/ICCV.2019.01083

8. Jakab T., Gupta A., Bilen H., Vedaldi A. Unsupervised learning of object landmarks through conditional image generation // Advances in Neural Information Processing Systems. 2018. P. 4016–4027.

9. Kulkarni T.D., Gupta A., Ionescu C., Borgeaud S., Reynolds M., Zisserman A., Mnih V. Unsupervised learning of object keypoints for perception and control // Advances in Neural Information Processing Systems. 2019. V. 32. P. 10723–10733.

10. Ono Y., Trulls E., Fua P., Yi K.M. LF-Net: learning local features from images // Advances in Neural Information Processing Systems. 2018. P. 6234–6244.

11. Maas A.L., Hannun A.Y., Ng A.Y. Rectiﬁer nonlinearities improve neural network acoustic models // Proc. 30th International Conference on Machine Learning. USA, Atlanta. 2013. P. 3.

12. Loshchilov I., Hutter F. Decoupled weight decay regularization // Proc. 7th International Conference on Learning Representations (ICLR 2019). 2019.

13. Lin T.-Y., Maire M., Belongie S., Hays J., Perona P., Ramanan D., Dollár P., Zitnick C.L. Microsoft COCO: Common objects in context // Lecture Notes in Computer Science (including subseries Lecture Notes in Artiﬁcial Intelligence and Lecture Notes in Bioinformatics). 2014. V. 8693. P. 740–755. doi: 10.1007/978-3-319-10602-1_48

14. Ященко А.В., Беликов А.В., Петерсон М.В., Потапов А.С. Дистилляция нейросетевых моделей для детектирования и описания ключевых точек изображений // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 3. С. 402–409. doi: 10.17586/2226-1494-2020-20-3-402-409

15. Irschara A., Zach C., Frahm J.M., Bischof H. From structure-from- motion point clouds to fast location recognition // Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2009. P. 2599–2606. doi: 10.1109/CVPRW.2009.5206587

16. Hernandez-Matas C., Zabulis X., Triantafyllou A., Anyfanti P., Douma S., Argyros A.A. FIRE: Fundus image registration dataset // Journal for Modeling in Ophthalmology. 2017. V. 1. N 4. P. 16–28.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License