Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-2-322-329
УДК 004.8
Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов
Читать статью полностью
Ссылка для цитирования:
Аннотация
Игнатьев Н.А., Турсунмуротов Д.Х. Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 2. С. 322–329. doi: 10.17586/2226-1494-2024-24-2-322-329
Аннотация
Введение. Рассмотрено цензурирование обучающих выборок с учетом специфики реализации алгоритмов метода ближайшего соседа. Процесс цензурирования связан с использованием множества граничных объектов классов по заданной метрике с целью: поиска и удаления шумовых объектов; анализа кластерной структуры обучающей выборки по отношению связанности. Исследуются специальные условия удаления шумовых объектов и формирования базы прецедентов для обучения алгоритмов. Распознавание объектов по такой базе должно обеспечивать более высокую точность с минимальными затратами вычислительных ресурсов относительно исходной выборки. Метод. Разработаны необходимые и достаточные условия для отбора шумовых объектов из множества граничных. Необходимое условие принадлежности граничного объекта к множеству шумовых задается в виде ограничения (порога) на отношение расстояний до ближайшего объекта из своего класса и его дополнения. Поиск минимального покрытия обучающей выборки эталонами производится на основе анализа кластерной структуры. Эталоны представлены объектами выборки. Структура отношений связанности объектов по системе гипершаров используется для их группировки. Состав групп формируется из центров (объектов выборки) для гипершаров, в пересечении которых содержатся граничные объекты. Значение меры компактности вычисляется как среднее число объектов обучающей выборки за вычетом шумовых, притягиваемое одним эталоном минимального покрытия. Выполняется анализ связи обобщающей способности алгоритмов при машинном обучении со значением меры компактности. Наличие связи обосновывается по критерию (регуляризатору) для отбора числа и состава множества шумовых объектов. Оптимальные коэффициенты регуляризации определяются как значения порогов для удаления шумовых объектов. Основные результаты. Показана связь между значением меры компактности обучающей выборки и обобщающей способностью алгоритмов распознавания. Связь выявлена по эталонам минимального покрытия выборки, из которых сформирована база прецедентов. Обнаружено, что точность распознавания по базе прецедентов выше, чем на исходной выборке. Минимальный состав базы прецедентов включает описания эталонов и параметры локальных метрик. При использовании процедур нормирования данных требуются дополнительные параметры. Анализ значений меры компактности востребован для обнаружения переобучения алгоритмов, связанного с размерностью признакового пространства. Распознавание по базе прецедентов минимизирует затраты вычислительных ресурсов с помощью алгоритмов метода ближайшего соседа. Обсуждение. Приводятся рекомендации по разработке моделей из области информационной безопасности, для обработки и интерпретации данных социологических исследований. Для использования в информационной безопасности формируется база прецедентов для идентификации DDOS-атак. Новые знания из области социологии предлагается получать через анализ значений показателей шумовых объектов и интерпретацию результатов разбиения респондентов на непересекающиеся группы по отношению к связанности объектов. Конфигурации групп по отношению связанности изначально не известны. Нет смысла вычислять их центры, которые могут размешаться за пределами конфигураций. Для объяснения содержимого групп предложено использовать эталоны минимального покрытия.
Ключевые слова: меры компактности, база прецедентов, коэффициенты регуляризации, минимальное покрытие эталонами, шумовые объекты
Благодарности. Работа выполнена в рамках плана научных исследований кафедры «Искусственный интеллект» Национального университета Узбекистана.
Список литературы
Благодарности. Работа выполнена в рамках плана научных исследований кафедры «Искусственный интеллект» Национального университета Узбекистана.
Список литературы
- Борисова И.А., Кутненко О.А. Цензурирование ошибочно классифицированных объектов выборки // Машинное обучение и анализ данных. 2015. Т. 1. № 11. С. 1632–1641.
- Загоруйко Н.Г., Кутненко О.А. Цензурирование обучающей выборки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). C. 66–73.
- Кутненко О.А., Плясунов А.В. NP-трудность некоторой задачи цензурирования данных // Дискретный анализ и исследование операций. 2021. Т. 28. № 2(148). С. 60–73. https://doi.org/10.33048/daio.2021.28.692
- Борисова И.А., Кутненко О.А. Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства // Математическая биология и биоинформатика. 2018. Т. 13. № 1. С. 38–49. https://doi.org/10.17537/2018.13.38
- Ignatyev N.A. Structure choice for relations between objects in metric classification algorithms // Pattern Recognition and Image Analysis. 2018. V. 28. N 4. P. 695–702. https://doi.org/10.1134/s1054661818040132
- Рудаков К.В. О некоторых факторизациях полуметрических конусов и оценках качества эвристических метрик в задачах анализа данных // Доклады Российской Академии наук. Математика, Информатика, Процессы Управления. 2020. Т. 492. № 1. С. 101–103. https://doi.org/10.31857/S2686954320030236
- Зухба А.В. Оценка вычислительной сложности задач отбора эталонных объектов и признаков: диссертация на соискание ученой степени кандидата физико-математических наук наук. М., 2018. 113 с.
- Ignatev N.A., Rahimova M.A. Formation and analysis of sets of informative features of objects by pairs of classes // Scientific and Technical Information Processing. 2022. V. 49. N 6. P. 439–445. https://doi.org/10.3103/S0147688222060053