doi: 10.17586/2226-1494-2024-24-2-322-329


УДК 004.8

Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов

Игнатьев Н.А., Турсунмуротов Д.Х.


Читать статью полностью 
Ссылка для цитирования:
Игнатьев Н.А., Турсунмуротов Д.Х. Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 2. С. 322–329. doi: 10.17586/2226-1494-2024-24-2-322-329


Аннотация
Введение. Рассмотрено цензурирование обучающих выборок с учетом специфики реализации алгоритмов метода ближайшего соседа. Процесс цензурирования связан с использованием множества граничных объектов классов по заданной метрике с целью: поиска и удаления шумовых объектов; анализа кластерной структуры обучающей выборки по отношению связанности. Исследуются специальные условия удаления шумовых объектов и формирования базы прецедентов для обучения алгоритмов. Распознавание объектов по такой базе должно обеспечивать более высокую точность с минимальными затратами вычислительных ресурсов относительно исходной выборки. Метод. Разработаны необходимые и достаточные условия для отбора шумовых объектов из множества граничных. Необходимое условие принадлежности граничного объекта к множеству шумовых задается в виде ограничения (порога) на отношение расстояний до ближайшего объекта из своего класса и его дополнения. Поиск минимального покрытия обучающей выборки эталонами производится на основе анализа кластерной структуры. Эталоны представлены объектами выборки. Структура отношений связанности объектов по системе гипершаров используется для их группировки. Состав групп формируется из центров (объектов выборки) для гипершаров, в пересечении которых содержатся граничные объекты. Значение меры компактности вычисляется как среднее число объектов обучающей выборки за вычетом шумовых, притягиваемое одним эталоном минимального покрытия. Выполняется анализ связи обобщающей способности алгоритмов при машинном обучении со значением меры компактности. Наличие связи обосновывается по критерию (регуляризатору) для отбора числа и состава множества шумовых объектов. Оптимальные коэффициенты регуляризации определяются как значения порогов для удаления шумовых объектов. Основные результаты. Показана связь между значением меры компактности обучающей выборки и обобщающей способностью алгоритмов распознавания. Связь выявлена по эталонам минимального покрытия выборки, из которых сформирована база прецедентов. Обнаружено, что точность распознавания по базе прецедентов выше, чем на исходной выборке. Минимальный состав базы прецедентов включает описания эталонов и параметры локальных метрик. При использовании процедур нормирования данных требуются дополнительные параметры. Анализ значений меры компактности востребован для обнаружения переобучения алгоритмов, связанного с размерностью признакового пространства. Распознавание по базе прецедентов минимизирует затраты вычислительных ресурсов с помощью алгоритмов метода ближайшего соседа. Обсуждение. Приводятся рекомендации по разработке моделей из области информационной безопасности, для обработки и интерпретации данных социологических исследований. Для использования в информационной безопасности формируется база прецедентов для идентификации DDOS-атак. Новые знания из области социологии предлагается получать через анализ значений показателей шумовых объектов и интерпретацию результатов разбиения респондентов на непересекающиеся группы по отношению к связанности объектов. Конфигурации групп по отношению связанности изначально не известны. Нет смысла вычислять их центры, которые могут размешаться за пределами конфигураций. Для объяснения содержимого групп предложено использовать эталоны минимального покрытия.

Ключевые слова: меры компактности, база прецедентов, коэффициенты регуляризации, минимальное покрытие эталонами, шумовые объекты

Благодарности. Работа выполнена в рамках плана научных исследований кафедры «Искусственный интеллект» Национального университета Узбекистана.

Список литературы
  1. Борисова И.А., Кутненко О.А. Цензурирование ошибочно классифицированных объектов выборки // Машинное обучение и анализ данных. 2015. Т. 1. № 11. С. 1632–1641.
  2. Загоруйко Н.Г., Кутненко О.А. Цензурирование обучающей выборки // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2013. № 1(22). C. 66–73.
  3. Кутненко О.А., Плясунов А.В. NP-трудность некоторой задачи цензурирования данных // Дискретный анализ и исследование операций. 2021. Т. 28. № 2(148). С. 60–73. https://doi.org/10.33048/daio.2021.28.692
  4. Борисова И.А., Кутненко О.А. Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства // Математическая биология и биоинформатика. 2018. Т. 13. № 1. С. 38–49. https://doi.org/10.17537/2018.13.38
  5. Ignatyev N.A. Structure choice for relations between objects in metric classification algorithms // Pattern Recognition and Image Analysis. 2018. V. 28. N 4. P. 695–702. https://doi.org/10.1134/s1054661818040132
  6. Рудаков К.В. О некоторых факторизациях полуметрических конусов и оценках качества эвристических метрик в задачах анализа данных // Доклады Российской Академии наук. Математика, Информатика, Процессы Управления. 2020. Т. 492. № 1. С. 101–103. https://doi.org/10.31857/S2686954320030236
  7. Зухба А.В. Оценка вычислительной сложности задач отбора эталонных объектов и признаков: диссертация на соискание ученой степени кандидата физико-математических наук наук. М., 2018. 113 с.
  8. Ignatev N.A., Rahimova M.A. Formation and analysis of sets of informative features of objects by pairs of classes // Scientific and Technical Information Processing. 2022. V. 49. N 6. P. 439–445. https://doi.org/10.3103/S0147688222060053


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика