Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2021-21-5-791-794
УДК 004.522
Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Петров О.Е. Архитектура системы полнотекстового поиска по речевым данным на основе глобального индекса // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 791–794. doi: 10.17586/2226-1494-2021-21-5-791-794
Аннотация
Предложена архитектура системы полнотекстового поиска по речевым данным, основанная на глобальном индексе поиска, который объединяет в себе информацию обо всех фонограммах архива. Архитектура включает в себя два независимых блока: блок индексирования и блок формирования и выполнения поискового запроса. Обработка фонограмм осуществляется с помощью системы автоматического распознавания речи, которая использует лингвистический декодер на основе взвешенных преобразователей конечных состояний (WFST) для создания словных сетей. Последовательное формирование на основе данных блоков сетей спутывания и обратных индексов позволяет учитывать все словные гипотезы, сформированные в процессе декодирования. Предложенное решение расширяет границы применимости систем речевой аналитики на те случаи, когда пословная ошибка распознавания речи является высокой, например, при обработке фонограмм, полученных в сложных акустических условиях или на малоресурсных языках.
Ключевые слова: полнотекстовый поиск, речевая аналитика, поиск ключевых слов, поисковый индекс, автоматическое распознавание речи
Список литературы
Список литературы
1. Zobel J., Moffat A. Inverted files for text search engines // ACM Computing Surveys. 2006. V. 38. N 2. P. 6–es. https://doi.org/10.1145/1132956.1132959
2. Saon G., Povey D., Zweig G. Anatomy of an extremely fast LVCSR decoder // Proc. 9th European Conference on Speech Communication and Technology. 2005. P. 549–552. https://doi.org/10.21437/Interspeech.2005-338
3. Mohri M., Pereira F., Riley M. Weighted finite-state transducers in speech recognition // Computer Speech and Language. 2002. V. 16. N 1. P. 69–88. https://doi.org/10.1006/csla.2001.0184
4. Laptev A., Andrusenko A., Podluzhny I., Mitrofanov A., Medennikov I., Matveev Y. Dynamic acoustic unit augmentation with BPE-dropout for low-resource end-to-end speech recognition // Sensors. 2021. V. 21. N 9. P. 3063. https://doi.org/10.3390/s21093063
5. Mangu L., Brill E., Stolcke A. Finding consensus in speech recognition: word error minimization and other applications of confusion networks // Computer Speech and Language. 2000. V. 14. N 4. P. 373–400. https://doi.org/10.1006/csla.2000.0152
6. Lagogiannis G. Query-optimal partially persistent B-trees with constant worst-case update time // International Journal of Foundations of Computer Science. 2017. V. 28. N 2. P. 141–169. https://doi.org/10.1142/S0129054117500101
7. Mangu L., Kingsbury B., Soltau H., Kuo H.-K., Picheny M. Efficient spoken term detection using confusion networks // Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2014. P. 7844–7848. https://doi.org/10.1109/ICASSP.2014.6855127
8. Allauzen C., Riley M., Schalkwyk J. A filter-based algorithm for efficient composition of finite-state transducers // International Journal of Foundations of Computer Science. 2011. V. 22. N 8. P. 1781–1795. https://doi.org/10.1142/S0129054111009033