doi: 10.17586/2226-1494-2025-25-3-487-497


УДК 004.961

Метод определения активного модуля в биологических графах с многокомпонентными весами вершин

Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Метод определения активного модуля в биологических графах с многокомпонентными весами вершин // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 3. С. 487–497. doi: 10.17586/2226-1494-2025-25-3-487-497


Аннотация
Введение. Активный модуль в биологических графах представляет собой связанный подграф, вершины которого объединены общей биологической функцией. Для определения активного модуля необходимо сначала построить взвешенный биологический граф. Вес каждой вершины вычисляется на основе биологических экспериментов, исследующих искомую биологическую функцию. Однако результаты одного эксперимента могут не полностью описывать искомый активный модуль, а лишь его часть, внося, например, неопределенность в веса вершин. В работе показано, что использование метода Фишера для объединения данных нескольких экспериментов, а затем применение метода Монте-Карло по схеме марковских цепей (МКМЦ) и машинного обучения к результатам метода Фишера, позволяет более эффективно выделять активные модули в биологических графах. Метод. В работе используются граф белок-белковых взаимодействий — InWebIM, граф по реконструкции мозга человека из проекта BigBrain и генный граф для вида живых организмов Caenorhabditis elegans. Для объединения результатов нескольких экспериментов в одном графе в единый результат применяется метод Фишера. После этого поиск активных модулей выполняется с использованием метода МКМЦ и машинного обучения. Для валидации предлагаемого метода на реальных данных применяются результаты полногеномного ассоциативного исследования по шизофрении и курению, а также матрица экспрессии генов пациентов с кожной меланомой из проекта The Cancer Genome Atlas. Основные результаты. Применение метода Фишера позволяет учитывать результаты нескольких биологических экспериментов одновременно. Последующее использование метода МКМЦ и машинного обучения повышает точность определения активных модулей по сравнению с ранжированием вершин графа только на основе метода Фишера. Обсуждение. Учет результатов нескольких биологических экспериментов при определении активных модулей играет ключевую роль в повышении точности нахождения вершин активного модуля. Это способствует лучшему пониманию биологических механизмов заболеваний, что может иметь важное значение для разработки новых методов диагностики и терапии.

Ключевые слова: графы, метод Монте-Карло по схеме марковских цепей, метод Фишера, биологические графы, активный модуль

Список литературы
  1. Wang S., Wu R., Lu J., Jiang Y., Huang T., Cai Y.D. Protein-protein interaction networks as miners of biological discovery // Proteomics. 2022. V. 22. N 15-16. P. e2100190. https://doi.org/10.1002/pmic.202100190
  2. Rao X., Dixon R.A. Co-expression networks for plant biology: why and how // Acta Biochimica et Biophysica Sinica. 2019. V. 51. N 10. P. 981–988. https://doi.org/10.1093/abbs/gmz080
  3. Rawls K., Dougherty B.V., Papin J. Metabolic network reconstructions to predict drug targets and off-target effects // Methods in Molecular Biology. 2020. V. 2088. P. 315–330. https://doi.org/10.1007/978-1-0716-0159-4_14
  4. Dittrich M.T., Klau G.W., Rosenwald A., Dandekar T., Müller T. Identifying functional modules in protein-protein interaction networks: an integrated exact approach // Bioinformatics. 2008. V. 24. N 13. P. i223–i231. https://doi.org/10.1093/bioinformatics/btn161
  5. Zhu Q.M., Hsu Y.H.H., Lassen F.H., MacDonald B.T., Stead S., Malolepsza E., Kim A., Li T., Mizoguchi T., Schenone M., Guzman G., Tanenbaum B., Fornelos N., Carr S.A., Gupta R.M., Ellinor P.T., Lage K. Protein interaction networks in the vasculature prioritize genes and pathways underlying coronary artery disease // Communications Biology. 2024. V. 7. N 1. P. 87. https://doi.org/10.1038/s42003-023-05705-1
  6. Nehme R., Pietiläinen O., Artomov M., Tegtmeyer M., Valakh V., Lehtonen L., Bell C., Singh T., Trehan A., Sherwood J.et. al. The 22q11.2 region regulates presynaptic gene-products linked to schizophrenia // Nature Communications. 2022. V. 13. N 1. P. 3690. https://doi.org/10.1038/s41467-022-31436-8
  7. Alexeev N., Isomurodov J., Sukhov V., Korotkevich G., Sergushichev A. Markov chain Monte Carlo for active module identification problem // BMC Bioinformatics. 2020. V. 21. Suppl. 6. P. 261. https://doi.org/10.1186/s12859-020-03572-9
  8. Усольцев Д.А., Молотков И.И., Артемов Н.Н., Сергушичев А.А., Шалыто А.А. Применение марковских цепей Монте-Карло и машинного обучения для поиска активного модуля в биологических графах // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. № 6. C. 962–971. https://doi.org/10.17586/2226-1494-2024-24-6-962-971
  9. Kim T.K., Park J.H. More about the basic assumptions of t-test: normality and sample size // Korean Journal of Anesthesiology. 2019. V. 72. N 4. P. 331–335. https://doi.org/10.4097/kja.d.18.00292
  10. Pounds S., Morris S.W. Estimating the occurrence of false positives and false negatives in microarray studies by approximating and partitioning the empirical distribution of p-values // Bioinformatics. 2003. V. 19. N 10. P. 1236–1242. https://doi.org/10.1093/bioinformatics/btg148
  11. Ham H., Park T. Combining p-values from various statistical methods for microbiome data // Frontiers inMicrobiology. 2022. V. 13. P. 990870. https://doi.org/10.3389/fmicb.2022.990870
  12. Li T., Wernersson R., Hansen R.B., Horn H., Mercer J., Slodkowicz G., Workman C.T., Rigina O., Rapacki K., Stærfeldt H.H., Brunak S., Jensen T.S., Lage K. A scored human protein-protein interaction network to catalyze genomic interpretation // Nature Methods. 2017. V. 14. N 1. P. 61–64. https://doi.org/10.1038/nmeth.4083
  13. Rossi R., Ahmed N. The network data repository with interactive graph analytics and visualization // Proc.of the 29th AAAI Conference on Artificial Intelligence. 2015. V. 29. N 1.https://doi.org/10.1609/aaai.v29i1.9277
  14. Amunts K., Lepage C., Borgeat L., Mohlberg H., Dickscheid T., Rousseau M.É., Bludau S., Bazin P.L., Lewis L.B., Oros-Peusquens A.M., Shah N.J., Lippert T., Zilles K., Evans A.C. BigBrain: an ultrahigh-resolution 3D human brain model // Science. 2013. V. 340. N 6139. P. 1472–1475. https://doi.org/10.1126/science.1235381
  15. Cho A., Shin J., Hwang S., Kim C., Shim H., Kim H., Kim H., Lee I. WormNet v3: a network-assisted hypothesis-generating server for Caenorhabditis elegans // Nucleic Acids Research. 2014. V. 42. N W1. P. W76–W82. https://doi.org/10.1093/nar/gku367
  16. Zhu Z., Zhang F., Hu H., Bakshi A., Robinson M.R., Powell J.E., Montgomery G.W., Goddard M.E., Wray N.R., Visscher P.M., Yang J. Integration of summary data from GWAS and eQTL studies predicts complex trait gene targets // Nature Genetics. 2016. V. 48. N 5. P. 481–487. https://doi.org/10.1038/ng.3538
  17. Usoltsev D., Molotkov I., Artomov M. A meta-predictor for causal gene identification in GWAS overcomes limitations of existing computational approaches // American Society of Human Genetics (Complex Traits and Polygenic Disorders Poster Friday Session). 2024.
  18. Pardiñas A.F., Holmans P., Pocklington A.J., Escott-Price V., Ripke S., Carrera N., Legge S.E., Bishop S., Cameron D., Hamshere M.L., et al. Common schizophrenia alleles are enriched in mutation-intolerant genes and in regions under strong background selection // Nature Genetics. 2018. V. 50. N 3. P. 381–389. https://doi.org/10.1038/s41588-018-0059-2
  19. Barbeira A.N., Dickinson S.P., Bonazzola R., Zheng J., Wheeler H.E., Torres J.M., Torstenson E.S., Shah K.P., Garcia T., Edwards T.L., Stahl E.A., Huckins L.M., Nicolae D.L., Cox N.J., Im H.K. Exploring the phenotypic consequences of tissue specific gene expression variation inferred from GWAS summary statistics // Nature Communications. 2018. V. 9. N 1. P. 1825. https://doi.org/10.1038/s41467-018-03621-1
  20. Urbut S.M., Wang G., Carbonetto P., Stephens M. Flexible statistical methods for estimating and testing effects in genomic studies with multiple conditions // Nature Genetics. 2019. V. 51. N 1. P. 187–195. https://doi.org/10.1038/s41588-018-0268-8
  21. Kolosov N., Daly M.J., Artomov M. Prioritization of disease genes from GWAS using ensemble-based positive-unlabeled learning // European Journal of Human Genetics. 2021. V. 29. N 10. P. 1527–1535. https://doi.org/10.1038/s41431-021-00930-w
  22. Lam M., Chen C-Y., Li Z., Martin A.R., Bryois J., Ma X., Gaspar H.,Ikeda M.,Benyamin B.,Brown B.C. et al. Comparative genetic architectures of schizophrenia in East Asian and European populations // Nature Genetics. 2019. V. 51. N 12. P. 1670–1678. https://doi.org/10.1038/s41588-019-0512-x
  23. Singh T., Poterba T., Curtis D., Akil H., Al Eissa M., Barchas J.D., Bass N., Bigdeli T.B., Breen G., Bromet E.J. et al. Rare coding variants in ten genes confer substantial risk for schizophrenia // Nature. 2022. V. 604. N 7906. P. 509–516. https://doi.org/10.1038/s41586-022-04556-w
  24. Usoltsev D., Kolosov N., Rotar O., Loboda A., Boyarinova M., Moguchaya E., Kolesova E., Erina A., Tolkunova K., Rezapova V., Molotkov I. et al.Complex trait susceptibilities and population diversity in a sample of 4,145 Russians // Nature Communications. 2024. V. 15. N 1. P. 6212. https://doi.org/10.1038/s41467-024-50304-1
  25. Usoltsev D., Njauw C.N., Ji Z., Kumar R., Sergushichev A., Zhang S., Shlyakhto E., Daly M.J., Artomov M., Tsao H. Analysis of variants induced by combined ex vivo irradiation and in vivo tumorigenesis suggests a role for the ZNF831 p.R1393Q variantin cutaneous melanoma development // Journal of Investigative Dermatology. 2024. In Press, Corrected Proof. https://doi.org/10.1016/j.jid.2024.08.042
  26. Лобода А.А. Метод графовой кластеризации для совместного анализа данных генотипирования и экспрессии генов: диссертация на соискание ученой степени кандидата технических наук. СПб., 2022, 232 с.
  27. Subramanian A., Tamayo P., Mootha V.K., Mukherjee S., Ebert B.L., Gillette M.A., Paulovich A., Pomeroy S.L., Golub T.R., Lander E.S., Mesirov J.P. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles // Proc.of the National Academy of Sciencesof the United States of America.2005. V. 102. N 43. P. 15545–15550. https://doi.org/10.1073/pnas.0506580102


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика