doi: 10.17586/2226-1494-2021-21-5-791-794


УДК 004.522

Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса

Петров О.Е.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Петров О.Е. Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 791–794. doi: 10.17586/2226-1494-2021-21-5-791-794


Аннотация
Предложена архитектура системы полнотекстового поиска по речевым данным, основанная на глобальном индексе поиска, который объединяет в себе информацию обо всех фонограммах архива. Архитектура включает в себя два независимых блока: блок индексирования и блок формирования и выполнения поискового запроса. Обработка фонограмм осуществляется с помощью системы автоматического распознавания речи, которая использует лингвистический декодер на основе взвешенных преобразователей конечных состояний (WFST) для создания словных сетей. Последовательное формирование на основе данных блоков сетей спутывания и обратных индексов позволяет учитывать все словные гипотезы, сформированные в процессе декодирования. Предложенное решение расширяет границы применимости систем речевой аналитики на те случаи, когда пословная ошибка распознавания речи является высокой, например, при обработке фонограмм, полученных в сложных акустических условиях или на малоресурсных языках.

Ключевые слова: полнотекстовый поиск, речевая аналитика, поиск ключевых слов, поисковый индекс, автоматическое распознавание речи

Список литературы
1. Zobel J., Moffat A. Inverted files for text search engines // ACM Computing Surveys. 2006. V. 38. N 2. P. 6–es. https://doi.org/10.1145/1132956.1132959
2. Saon G., Povey D., Zweig G. Anatomy of an extremely fast LVCSR decoder // Proc. 9th European Conference on Speech Communication and Technology. 2005. P. 549–552. https://doi.org/10.21437/Interspeech.2005-338
3. Mohri M., Pereira F., Riley M. Weighted finite-state transducers in speech recognition // Computer Speech and Language. 2002. V. 16. N 1. P. 69–88. https://doi.org/10.1006/csla.2001.0184
4. Laptev A., Andrusenko A., Podluzhny I., Mitrofanov A., Medennikov I., Matveev Y. Dynamic acoustic unit augmentation with BPE-dropout for low-resource end-to-end speech recognition // Sensors. 2021. V. 21. N 9. P. 3063. https://doi.org/10.3390/s21093063
5. Mangu L., Brill E., Stolcke A. Finding consensus in speech recognition: word error minimization and other applications of confusion networks // Computer Speech and Language. 2000. V. 14. N 4. P. 373–400. https://doi.org/10.1006/csla.2000.0152
6. Lagogiannis G. Query-optimal partially persistent B-trees with constant worst-case update time // International Journal of Foundations of Computer Science. 2017. V. 28. N 2. P. 141–169. https://doi.org/10.1142/S0129054117500101
7. Mangu L., Kingsbury B., Soltau H., Kuo H.-K., Picheny M. Efficient spoken term detection using confusion networks // Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2014. P. 7844–7848. https://doi.org/10.1109/ICASSP.2014.6855127
8. Allauzen C., Riley M., Schalkwyk J. A filter-based algorithm for efficient composition of finite-state transducers // International Journal of Foundations of Computer Science. 2011. V. 22. N 8. P. 1781–1795. https://doi.org/10.1142/S0129054111009033


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика