НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2016-16-4-689-696
УДК 004.855.3
СИСТЕМА ОБУЧЕНИЯ ВИЗУАЛЬНЫМ ПОНЯТИЯМ НА ОСНОВЕ СООТНЕСЕНИЯ ЛЕКСЕМ И КЛЮЧЕВЫХ ТОЧЕК
Читать статью полностью
Ссылка для цитирования: Филатов В.И., Потапов А.С. Система обучения визуальным понятиям на основе соотнесения лексем и ключевых точек // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 4. С. 689–696. doi: 10.17586/2226-1494-2016-16-4-689-696
Аннотация
Предмет исследования.Исследован процесс формирования визуальных понятий на основе двух неразмеченных потоков информации (визуального и текстового). Метод. Формирование визуальных понятий осуществляется путем соотнесения визуальных паттернов с появляющимися одновременно с ними лексемами. Процесс обучения разбивается на два этапа: раннее зрительное обучение (первичное обучение), обучение на основе лексико-семантической информации (вторичное обучение). Первый этап заключается в построении словаря визуальных слов, служащего основой для второго этапа. Вторичное обучение предполагает анализ двух потоков информации, связанных по времени. В каждом канале проводится разделение информации на отдельные единицы, которые, в свою очередь, описываются на основе векторов признаков. Визуальные понятия формируются путем выявления связи между признаками, извлеченными из двух каналов информации. Основные результаты. Реализована система формирования визуальных понятий, которая протестирована на видеоданных, сопровожденных субтитрами. Результаты тестирования показали принципиальную возможность формирования визуальных понятий данной системой. Практическая значимость. Описанная в работе система может быть использована для задач распознавания статических и динамических объектов, поиска изображений объектов в архиве видеоданных, автоматического создания баз визуальных понятий на основе произвольных видеофайлов, содержащих текстовое описание.
Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации и частично при государственной поддержке ведущих университетов Российской Федерации (субсидия 074-U01)
Список литературы
1. Ito S., Yoshioka M., Omatu S., Kita K., Kugo K. An image recognition method by rough classification for a scene image // Artificial Life and Robotics. 2006. V. 10. N 2. P. 120–125. doi: 10.1007/s10015-005-0353-9
2. Ko B., Peng J., Byun H. Region-based image retrieval using probabilistic feature relevance learning // Pattern Analysis and Application. 2001. V. 4. N 2–3. P. 174–184. doi: 10.1007/s100440170015
3. Li Z. Learning Visual Concepts from Social Images: Master Thesis. Leiden Institute of Advanced Computer Science, Netherlands, 2011. 18 p.
4. Fergus R., Fei-Fei L., Perona P., Zisserman A. Learning object categories from Google’s image search // Proc. 10th IEEE Int. Conf. on Computer Vision. Beijing, China, 2005. V. II. P. 1816–1823. doi: 10.1109/ICCV.2005.142
5. Fei-Fei L., Fergus R., Perona P. One-shot learning of object categories // IEEE Transactions on Pattern Anal-ysis and Machine Intelligence. 2006. V. 28. N 4. P. 594–611. doi: 10.1109/TPAMI.2006.79
6. Grauman K., Darell T. The pyramid match kernel: discriminative classification with sets of image features // Proc. 10th IEEE Int. Conf. on Computer Vision. Beijing, China, 2005. V. II. P. 1458–1465. doi: 10.1109/ICCV.2005.239
7. Filatov V.I. Concept-based lexical-semantic unsupervised learning system // Journal of Physics: Conference Series. 2014. V. 536. N 1. Art. 012016. doi: 10.1088/1742-6596/536/1/012016.
8. Naphade M., Huang T. A probabilistic framework for semantic video indexing, filtering and retrieval // IEEE Transactions on Multimedia. 2001. V. 3. N 1. P. 141–151. doi: 10.1109/6046.909601
9. Ranzato M. Unsupervised Learning of Feature Hierarchies: PhD thesis. New York University, 2009. 167 p.
10. Roy D. Learning from Sights and Sounds: a Computational Model: PhD thesis. MIT, 1999. 176 p.
11. Roy D.K., Pentland A.P. Learning words from sights and sounds: a computational model // Cognitive Sci-ence. 2002. V. 26. N 1. P. 113–146. doi: 10.1016/S0364-0213(01)00061-1
12. Roy D. Learning visually grounded words and syntax of natural spoken language // Evolution of Communi-cation. 2002. V. 4. N 1. P. 33–56.
13. Lowe D.G. Object recognition from local scale-invariant features // International Conference of Computer Vision. Kerkyra, Greece, 1999. V. 2. P. 1150–1157.
14. Lowe D.G. Distinctive image features from scale-invariant keypoints // International Journal of Computer Vision. 2004. V. 60. N 2. P. 91–110. doi: 10.1023/B:VISI.0000029664.99615.94
15. Lucas B.D., Kanade T. An iterative image registration technique with an application to stereo vision // Proc. 7th Int. Joint Conference on Artificial Intelligence. Vancouver, Canada, 1981. V. 2. P. 674–679.
16. Barron J., Fleet D., Beauchemin S. Performance of optical flow techniques // International Journal of Com-puter Vision. 1994. V. 12. N 1. P. 43–77. doi: 10.1007/BF01420984
17. Bay H., Ess A. Speeded-up robust features // Computer Vision and Image Understanding. 2008. V. 110. N 3. P. 346–359. doi: 10.1016/j.cviu.2007.09.014
18. Farneback G. Two-frame motion estimation based on polynomial expansion // Lecture Notes in Computer Science. 2003. V. 2749. P. 363–370.
19. Farneback G. Disparity estimation from local polynomial expansion // Proc. SSAD Symposium on Image Analysis, 2001.