Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2023-23-5-946-954
УДК 004.89
Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Менисов А.Б., Ломако А.Г., Сабиров Т.Р. Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 5. С. 946–954. doi: 10.17586/2226-1494-2023-23-5-946-954
Аннотация
Введение. В настоящее время интерпретируемость лингвистических моделей машинного обучения неудовлетворительна в связи с несовершенством научно-методического аппарата описания функционирования как отдельных элементов, так и моделей в целом. Одной из проблем, связанной со слабой интерпретируемостью, является низкая надежность функционирования нейронных сетей, обрабатывающих тексты естественного языка. Известно, что небольшие возмущения в текстовых данных влияют на устойчивость нейронных сетей. В работе представлен метод тестирования лингвистических моделей машинного обучения на наличие угрозы проведения атак уклонения. Метод. Метод включает в себя следующие генерации текстовых состязательных примеров: случайная модификация текста и сеть генерации модификаций. Случайная модификация текста произведена с помощью омоглифов — переупорядочивания текста, добавления невидимых символов и удаления символов случайным образом. Сеть генерации модификаций основана на генеративно-состязательной архитектуре нейронных сетей. Основные результаты. Проведенные эксперименты продемонстрировали результативность метода тестирования на основе сети генерации текстовых состязательных примеров. Преимущество разработанного метода заключается в возможности генерации более естественных и разнообразных состязательных примеров, которые обладают меньшими ограничениями, не требуется многократных запросов к тестируемой модели. Это может быть применимо в более сложных сценариях тестирования, где взаимодействие с моделью ограничено. Эксперименты показали, что разработанный метод позволил добиться лучшего баланса результативности и скрытности текстовых состязательных примеров (например, протестированы модели GigaChat и YaGPT). Обсуждение. Результаты работы показали необходимость проведения тестирования на наличие дефектов и уязвимостей, которые могут эксплуатировать злоумышленники с целью снижения качества функционирования лингвистических моделей. Это указывает на большой потенциал в вопросах обеспечения надежности моделей машинного обучения. Перспективным направлением являются проблемы восстановления уровня защищенности (конфиденциальности, доступности и целостности) лингвистических моделей машинного обучения.
Ключевые слова: искусственный интеллект, обработка естественного языка, информационная безопасность, состязательные атаки, тестирование защищенности
Благодарности. Работа выполнена в рамках гранта Президента Российской Федерации для государственной поддержки молодых российских ученых — кандидатов наук МК-2485.2022.4.
Список литературы
Благодарности. Работа выполнена в рамках гранта Президента Российской Федерации для государственной поддержки молодых российских ученых — кандидатов наук МК-2485.2022.4.
Список литературы
- Намиот Д.Е., Ильюшин Е.А., Чижов И.В. Атаки на системы машинного обучения-общие проблемыи методы // International Journal of Open Information Technologies. 2022. Т. 10. № 3. С. 17–22.
- Goodfellow I.J., Shlens J., Szegedy C. Explaining and harnessing adversarial examples // arXiv. 2014. arXiv:1412.6572. https://doi.org/10.48550/arXiv.1412.6572
- Xu W., Agrawal S., Briakou E., Martindale M.J., Marine C. Understanding and detecting hallucinations in neural machine translation via model introspection // Transactions of the Association for Computational Linguistics. 2023. V. 11. P. 546–564. https://doi.org/10.1162/tacl_a_00563
- Chang G., Gao H., Yao Z., Xiong H. TextGuise: Adaptive adversarial example attacks on text classification model // Neurocomputing. 2023. V. 529. P. 190–203. https://doi.org/10.1016/j.neucom.2023.01.071
- Wallace E., Feng S., Kandpal N., Gardner M., Singh S. Universal adversarial triggers for attacking and analyzing NLP // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 2153–2162. https://doi.org/10.18653/v1/d19-1221
- Alshemali B., Kalita J. Improving the reliability of deep neural networks in NLP: A review // Knowledge-Based Systems. 2020. V. 191. P. 105210. https://doi.org/10.1016/j.knosys.2019.105210
- Chang K.W., He H., Jia R., Singh S. Robustness and adversarial examples in natural language processing // Proc. of the 2021 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts. 2021. P. 22–26. https://doi.org/10.18653/v1/2021.emnlp-tutorials.5
- Dong H., Dong J., Yuan S., Guan Z. Adversarial attack and defense on natural language processing in deep learning: a survey and perspective // Lecture Notes in Computer Science. 2023. V. 13655.P. 409–424. https://doi.org/10.1007/978-3-031-20096-0_31
- Margarov G., Tomeyan G., Pereira M.J.V. Plagiarism detection system for Armenian language // Proc. of the 2017 Computer Science and Information Technologies (CSIT). 2017. P. 185–189. https://doi.org/10.1109/csitechnol.2017.8312168
- Lupart S., Clinchant S. A study on FGSM adversarial training for neural retrieval // Lecture Notes in Computer Science.2023. V. 13981.P. 484–492. https://doi.org/10.1007/978-3-031-28238-6_39
- Du P., Zheng X., Liu L., Ma H. Defending against universal attack via curvature-aware category adversarial training // Proc. of the ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. P. 2470–2474. https://doi.org/10.1109/icassp43922.2022.9746983
- Wu C., Zhang R., Guo J., De Rijke M., Fan Y., Cheng X. PRADA: Practical black-box adversarial attacks against neural ranking models // ACM Transactions on Information Systems. 2023. V. 41. N 4. P. 1–27. https://doi.org/10.1145/3576923
- Goldblum M., Tsipras D., Xie C., Chen X., Schwarzschild A., Song D., Madry A., Li B., Goldstein T. Dataset security for machine learning: Data poisoning, backdoor attacks, and defenses // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023. V. 45. N 2. P. 1563–1580. https://doi.org/10.1109/tpami.2022.3162397
- Ding R., Liu H., Zhou X. IE-Net: Information-enhanced binary neural networks for accurate classification // Electronics. 2022. V. 11. N 6. P. 937. https://doi.org/10.3390/electronics11060937
- Huang Y., Giledereli B., Köksal A., Özgür A., Ozkirimli E. Balancing methods for multi-label text classification with long-tailed class distribution // Proc. of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. P. 8153–8161. https://doi.org/10.18653/v1/2021.emnlp-main.643
- Zhang S., Yao H. ACE: An actor ensemble algorithm for continuous control with tree search // Proceedings of the AAAI Conference on Artificial Intelligence. 2019. V. 33. N 01. P. 5789–5796. https://doi.org/10.1609/aaai.v33i01.33015789
- Antoun W., Baly F., Hajj H. AraBERT: Transformer-based model for Arabic language understanding // arXiv. 2020. arXiv:2003.00104. https://doi.org/10.48550/arXiv.2003.00104
- Borges L., Martins B., Calado P. Combining similarity features and deep representation learning for stance detection in the context of checking fake news // Journal of Data and Information Quality (JDIQ). 2019. V. 11. N 3. P. 1–26. https://doi.org/10.1145/3287763
- Wang X., Yang Y., Deng Y., He K. Adversarial training with fast gradient projection method against synonym substitution based text attacks // Proceedings of the AAAI Conference on Artificial Intelligence. 2021. V. 35. N 16. P. 13997–14005. https://doi.org/10.1609/aaai.v35i16.17648
- Yang X., Qi Y., Chen H., Liu B., Liu W. Generation-based parallel particle swarm optimization for adversarial text attacks // Information Sciences. 2023. V. 644. P. 119237. https://doi.org/10.1016/j.ins.2023.119237
- Peng H., Wang Z., Zhao D., Wu Y., Han J., Guo S., Ji S., Zhong M. Efficient text-based evolution algorithm to hard-label adversarial attacks on text // Journal of King Saud University - Computer and Information Sciences. 2023. V. 35. N 5. P. 101539. https://doi.org/10.1016/j.jksuci.2023.03.017
- Hauser J., Meng Z., Pascual D., Wattenhofer R. Bert is robust! A case against word substitution-based adversarial attacks // Proc. of the ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. P. 1–5. https://doi.org/10.1109/icassp49357.2023.10095991