ПРИМЕНЕНИЕ МЕТОДА НЕЗАВИСИМЫХ КОМПОНЕНТ ДЛЯ ОПРЕДЕЛЕНИЯ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ ПРИ ПОИСКЕ АКТИВНЫХ МОДУЛЕЙ В БИОЛОГИЧЕСКИХ ГРАФАХ

Гайнуллина Анастасия Наильевна, Сухов Владимир Дмитриевич, Шалыто Анатолий Абрамович, Сергушичев Алексей Александрович

doi:10.17586/2226-1494-2020-20-6-888-892

2020 , ТОМ 20, НОМЕР 6 ( ноябрь-декабрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2020-20-6-888-892

УДК 519.1

ПРИМЕНЕНИЕ МЕТОДА НЕЗАВИСИМЫХ КОМПОНЕНТ ДЛЯ ОПРЕДЕЛЕНИЯ НАЧАЛЬНОГО ПРИБЛИЖЕНИЯ ПРИ ПОИСКЕ АКТИВНЫХ МОДУЛЕЙ В БИОЛОГИЧЕСКИХ ГРАФАХ

Гайнуллина А.Н., Сухов В.Д., Шалыто А.А., Сергушичев А.А.

Читать статью полностью

Ссылка для цитирования:

Гайнуллина А.Н., Сухов В.Д., Шалыто А.А., Сергушичев А.А. Применение метода независимых компонент для определения начального приближения при поиске активных модулей в биологических графах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 6. С. 888-892. doi: 10.17586/2226-1494-2020-20-6-888-892

Аннотация

Предмет исследования. Поиск активных модулей в биологических графах, в том числе в генных графах, является одним из важных подходов к интерпретации экспериментальных биологических данных. Один из методов ее решения основан на применении алгоритма совместной кластеризации в графовом и корреляционном пространствах. Алгоритм находит группы генов, одновременно близко расположенные в генном графе и обладающие высокой попарной корреляцией по матрице значений экспрессии генов. Алгоритм является итеративным, одиниз его ключевых параметров–выбранное начальное приближение, от которого зависит время работы и качество получаемых результатов. В настоящей работе рассмотрена задача определения начального приближения для этого алгоритма. Для решения задачи предложено использование процедуры на основе метода независимых компонент. Метод. На первом шаге предлагаемой процедуры определения начального приближения применяется метод независимых компонент к центрированной матрице значений экспрессии генов. Далее для каждой компоненты определяются гены, которые ей соответствуют с заданным уровнем статистической значимости. Полученные группы генов для всех независимых компонент выбираются в качестве начального приближения. Основные результаты. Применение процедуры на основе метода независимых компонент позволитуменьшить число групп генов в начальном приближении без потери точности, что, в свою очередь, уменьшитвремя работы алгоритма кластеризации в десяткираз при сохранении качества результатов. Практическая значимость. Ускорение работы алгоритма совместной кластеризации в графовом и корреляционном пространствах без потери качества результатов значительно повыситудобство его использования для интерпретации транскриптомных данных в биоинформатике и вычислительной биологии.

Ключевые слова: кластеризация, корреляция, метод независимых компонент, графы, экспрессия генов

Благодарности. Работа выполнена при поддержке Правительства Российской Федерации, субсидия 08-08.

Список литературы

1. Beisser D., Grohme M.A., Kopka J., Frohme M., Schill R.O., Hengherr S., Dandekar T., Klau G.W., Dittrich M., Müller T. Integrated pathway modules using time-course metabolic profiles and EST data from Milnesium tardigradum // BMC Systems Biology. 2012. V. 6. P. 72. doi: 10.1186/1752-0509-6-72

2. Jha A.K., Huang S.-C., Sergushichev A., Lampropoulou V., Ivanova Y., Loginicheva E., Chmielewski K., Stewart K., Ashall J., Everts B., Pearce E., Driggers E.M., Artyomov M.N. Network integration of parallel metabolic and transcriptional data reveals metabolic modules that regulate macrophage polarization // Immunity. 2015. V. 42. N 3. P. 419–430. doi: 10.1016/j.immuni.2015.02.005

3. Artyomov M.N., Sergushichev A., Schilling J.D. Integrating immunometabolism and macrophage diversity // Seminars in Immunology. 2016. V. 28. N 5. P. 417–424. doi: 10.1016/j.smim.2016.10.004

4. Loboda A.A., Artyomov M.N., Sergushichev A.A. Solving generalized maximum-weight connected subgraph problem for network enrichment analysis // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9838. P. 210–221. doi: 10.1007/978-3-319-43681-4_17

5. Гайнуллина А.Н., Шалыто А.А., Сергушичев А.А. Метод совместной кластеризации в графовом и корреляционном пространствах // Моделирование и анализ информационных систем. 2020. Т. 27. № 2. С. 180–193. doi: 10.18255/1818-1015-2020-2-180-193

6. Comon P. Independent component analysis, a new concept? // Signal Processing. 1994. V. 36. N 3. P. 287–314. doi: 10.1016/0165-1684(94)90029-9

7. Saelens W., Cannoodt R., Saeys Y. A comprehensive evaluation of module detection methods for gene expression data // Nature Communications. 2018. V. 9. N 1. P. 1090. doi: 10.1038/s41467-018-03424-4

8. Rotival M., Zeller T., Wild P., Maouche S., Szymczak S., Schillert A., Castagné R., Deiseroth A., Proust C., Brocheton J., Godefroy T., Perret C., Germain M., Eleftheriadis M., Sinning C.R., Schnabel R.B., Lubos E., Lackner K.J., Rossmann H., Münzel T., Rendon A., Consortium C., Erdmann J., Deloukas P., Hengstenberg C., Diemert P., Montalescot G., Ouwehand W.H., Samani N.J., Schunkert H., Tregouet D.-A., Ziegler A., Goodall A.H., Cambien F., Tiret L., Blankenberg S. Integrating genome-wide genetic variations and monocyte expression data reveals trans-regulated gene modules in humans // PLoS Genetics. 2011. V. 7. N 12. P. e1002367. doi: 10.1371/journal.pgen.1002367

9. Minka T. Automatic choice of dimensionality for PCA // Advances in Neural Information Processing Systems. 2001. V. 13. P. 598–604.

10. Ray K.L., McKay D.R., Fox P.M., Riedel M.C., Uecker A.M., Beckmann C.F., Smith S.M., Fox P.T., Laird A.R. ICA model order selection of task co-activation networks // Frontiers in Neuroscience. 2013. V. 7. P. 237. doi: 10.3389/fnins.2013.00237

11. Steinbaugh M.J., Pantano L., Kirchner R.D., Barrera V., Chapman B.A., Piper M.E., Mistry M., Khetani R.S., Rutherford K.D., Hofmann O., Hutchinson J.N., Sui S.H. BcbioRNASeq: R package for bcbio RNA-seq analysis // F1000Research. 2017. V. 6. P. 1976. doi: 10.12688/f1000research.12093.1

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License