Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса

Петров Олег Евгеньевич

doi:10.17586/2226-1494-2021-21-5-791-794

2021 , ТОМ 21, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2021-21-5-791-794

УДК 004.522

Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса

Петров О.Е.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Петров О.Е. Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 791–794. doi: 10.17586/2226-1494-2021-21-5-791-794

Аннотация

Предложена архитектура системы полнотекстового поиска по речевым данным, основанная на глобальном индексе поиска, который объединяет в себе информацию обо всех фонограммах архива. Архитектура включает в себя два независимых блока: блок индексирования и блок формирования и выполнения поискового запроса. Обработка фонограмм осуществляется с помощью системы автоматического распознавания речи, которая использует лингвистический декодер на основе взвешенных преобразователей конечных состояний (WFST) для создания словных сетей. Последовательное формирование на основе данных блоков сетей спутывания и обратных индексов позволяет учитывать все словные гипотезы, сформированные в процессе декодирования. Предложенное решение расширяет границы применимости систем речевой аналитики на те случаи, когда пословная ошибка распознавания речи является высокой, например, при обработке фонограмм, полученных в сложных акустических условиях или на малоресурсных языках.

Ключевые слова: полнотекстовый поиск, речевая аналитика, поиск ключевых слов, поисковый индекс, автоматическое распознавание речи

Список литературы

1. Zobel J., Moffat A. Inverted files for text search engines // ACM Computing Surveys. 2006. V. 38. N 2. P. 6–es. https://doi.org/10.1145/1132956.1132959

2. Saon G., Povey D., Zweig G. Anatomy of an extremely fast LVCSR decoder // Proc. 9th European Conference on Speech Communication and Technology. 2005. P. 549–552. https://doi.org/10.21437/Interspeech.2005-338

3. Mohri M., Pereira F., Riley M. Weighted finite-state transducers in speech recognition // Computer Speech and Language. 2002. V. 16. N 1. P. 69–88. https://doi.org/10.1006/csla.2001.0184

4. Laptev A., Andrusenko A., Podluzhny I., Mitrofanov A., Medennikov I., Matveev Y. Dynamic acoustic unit augmentation with BPE-dropout for low-resource end-to-end speech recognition // Sensors. 2021. V. 21. N 9. P. 3063. https://doi.org/10.3390/s21093063

5. Mangu L., Brill E., Stolcke A. Finding consensus in speech recognition: word error minimization and other applications of confusion networks // Computer Speech and Language. 2000. V. 14. N 4. P. 373–400. https://doi.org/10.1006/csla.2000.0152

6. Lagogiannis G. Query-optimal partially persistent B-trees with constant worst-case update time // International Journal of Foundations of Computer Science. 2017. V. 28. N 2. P. 141–169. https://doi.org/10.1142/S0129054117500101

7. Mangu L., Kingsbury B., Soltau H., Kuo H.-K., Picheny M. Efficient spoken term detection using confusion networks // Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2014. P. 7844–7848. https://doi.org/10.1109/ICASSP.2014.6855127

8. Allauzen C., Riley M., Schalkwyk J. A filter-based algorithm for efficient composition of finite-state transducers // International Journal of Foundations of Computer Science. 2011. V. 22. N 8. P. 1781–1795. https://doi.org/10.1142/S0129054111009033

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License