doi: 10.17586/2226-1494-2024-24-4-594-601


УДК 004.855.5: 004.032.26

Предсказание связей «ген-болезнь» с помощью гетерогенной графовой нейронной сети

Сидоренко Д.А., Шалыто А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Сидоренко Д.А., Шалыто А.А. Предсказание связей «ген-болезнь» с помощью гетерогенной графовой нейронной сети // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 4. С. 594–601. doi: 10.17586/2226-1494-2024-24-4-594-601


Аннотация
Введение. Представлены результаты разработки модели гетерогенной графовой нейронной сети для предсказания ассоциаций между генами и заболеваниями на основе имеющихся геномных и медицинских данных. Новизна предложенного подхода состоит в объединении концепций графовых нейронных сетей и гетерогенных информационных сетей для эффективной обработки структурированных данных и учета сложных взаимодействий между генами и патологиями. Метод. Предложенное решение представляет собой гетерогенную графовую нейронную сеть, которая использует гетерогенную графовую структуру для представления генов, болезней и их взаимосвязей. Основные результаты. Оценка точности разработанной модели проведена на наборах данных DisGeNET, LASTFM, YELP. На этих же данных выполнено сравнение результатов с наиболее сильными моделями. Показано превосходство предложенной модели по метрикам точности Average Precision (AP), F1-меры (F1@S), Hit@k, Area Under Receiver Operating Characteristic curve (AUROC) при предсказании ассоциаций «ген-болезнь». Обсуждение. Разработанная модель может использоваться как инструмент биоинформатического анализа и в качестве вспомогательного средства для исследователей и врачей при изучении генетических заболеваний. Такой подход может ускорить процесс открытия новых лекарственных мишеней и разработку персонализированной медицины.

Ключевые слова: машинное обучение, графовые нейронные сети, гетерогенные информационные сети, биоинформатика, генетика, предсказание «ген-болезнь» ассоциаций

Список литературы
  1. Henaff M., Bruna J., LeCun Y. Deep convolutional networks on graph-structured data // arXiv. 2015. arXiv:1506.05163. https://doi.org/10.48550/arXiv.1506.05163
  2. Wang X., Bo D., Shi C., Fan S., Ye Y., Yu P.S. A survey on heterogeneous graph embedding: methods, techniques, applications and sources // IEEE Transactions on Big Data. 2023. V. 9. N 2. P. 415–436. https://doi.org/10.1109/TBDATA.2022.3177455
  3. Shao B., Li X., Bian G. A survey of research hotspots and frontier trends of recommendation systems from the perspective of knowledge graph // Expert Systems with Applications. 2021. V. 165. P. 113764. https://doi.org/10.1016/j.eswa.2020.113764
  4. László L. Random walks on graphs: a survey // Combinatorics. V. 2. 1993. P. 1–46.
  5. Li L., Wang Y., An L., Kong X., Huang T. A network-based method using a random walk with restart algorithm and screening tests to identify novel genes associated with Menière’s disease // PLOS ONE. 2017. V. 12. N 8. P. e0182592. https://doi.org/10.1371/journal.pone.0182592
  6. Muslu Ö., Hoyt C.T., Lacerda M., Hofmann-Apitius M., Frohlich H. GuiltyTargets: Prioritization of novel therapeutic targets with network representation learning // IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2022. V. 19. N 1. P. 491–500. https://doi.org/10.1109/TCBB.2020.3003830
  7. Li Y., Kuwahara H., Yang P., Song L., Gao X. PGCN: Disease gene prioritization by disease and gene embedding through graph convolutional neural networks // biorxiv.org. 2019. https://doi.org/10.1101/532226
  8. Dutta A., Alcaraz J., Tehrani Jamsaz A., Cesar E., Sikora A., Jannesari A. Performance optimization using multimodal modeling and heterogeneous GNN // arXiv. 2023. arXiv.2304.12568. https://doi.org/10.48550/arXiv.2304.12568
  9. Thanapalasingam T., van Berkel L., Bloem P., Groth P. Relational graph convolutional networks: Closer Look // PeerJ Computer Science. 2022. V. 8. P. e1073. https://doi.org/10.7717/PEERJ-CS.1073
  10. Wang X., Ji H., Shi C., Wang B., Ye Y., Cui P., Yu P.S. Heterogeneous graph attention network // Proc. of the WWW '19: The World Wide Web Conference. 2019. P. 2022–2032. https://doi.org/10.1145/3308558.3313562
  11. Ali A., Bagchi A. An overview of protein-protein interaction // Current Chemical Biology. 2015. V. 9. N 1. P. 53–65. https://doi.org/10.2174/221279680901151109161126
  12. Malone J., Holloway E., Adamusiak T., Kapushesky M., Zheng J., Kolesnikov N., Zhukova A., Brazma A., Parkinson H. Modeling sample variables with an experimental factor ontology // Bioinformatics. 2010. V. 26. N 8. P. 1112–1118. https://doi.org/10.1093/bioinformatics/btq099
  13. Lee J., Yoon W., Kim S., Kim D., Kim S., So C.H., Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining // Bioinformatics. 2020. V. 36. N 4. P. 1234–1240. https://doi.org/10.1093/bioinformatics/btz682
  14. Zhang X., Zou Y., Shi W. Dilated convolution neural network with LeakyReLU for environmental sound classification // Proc. of the 22nd International Conference on Digital Signal Processing (DSP). 2017. https://doi.org/10.1109/ICDSP.2017.8096153
  15. Piñero J., Queralt-Rosinach N., Bravo A., Deu-Pons J., Bauer-Mehren A., Baron M., Sanz F., Furlong L.I. DisGeNET: A discovery platform for the dynamical exploration of human diseases and their genes // Database. 2015. V. 2015. https://doi.org/10.1093/database/bav028
  16. Alam M., Cevallos B., Flores O., Lunetto R., Yayoshi K., Woo J. Yelp Dataset Analysis using Scalable Big Data // arXiv. 2021. arXiv.2104.08396v1. https://doi.org/10.48550/arXiv.2104.08396
  17. Li Y., Guo X., Lin W., Zhong M., Li Q., Liu Z., Zhong W., Zhu Z. Learning dynamic user interest sequence in knowledge graphs for click-through rate prediction // IEEE Transactions on Knowledge and Data Engineering. 2023. V. 35. N 1. P. 647–657. https://doi.org/10.1109/TKDE.2021.3073717
  18. Kuo Y., Wang R., Liu G., Shu Z., Wang N., Zhang R., Yu J., Chen J., Li X., Zhou X. HerGePred: Heterogeneous network embedding representation for disease gene prediction // IEEE Journal of Biomedical and Health Informatics. 2019. V. 23. N 4. P. 1805–1815. https://doi.org/10.1109/JBHI.2018.2870728
  19. Grover A., Leskovec J. node2vec: Scalable feature learning for networks // Proc. of the KDD’16 . International Conference on Knowledge Discovery & Data Mining. 2016. P. 855–864. https://doi.org/10.1145/2939672.2939754
  20. Yuxiao D., Chawla N., Swami A. metapath2vec: Scalable representation learning for heterogeneous networks // Proc. of the KDD’17 . International Conference on Knowledge Discovery & Data Mining. 2017. P 135–144. https://doi.org/10.1145/3097983.3098036
  21. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. of the Workshop ICLR. 2013.
  22. Perozzi B., Al-Rfou R., Skiena S. DeepWalk: Online learning of social representations // Proc. of the KDD’14. 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014. P. 701–710. https://doi.org/10.1145/2623330.2623732
  23. Hu Z., Dong Y., Wang K., Sun Y. Heterogeneous graph transformer // Proc. of the WWW ’20. The Web Conference. 2020. P. 2704–2710. https://doi.org/10.1145/3366423.3380027
  24. He M., Huang C., Liu B., Wang Y., Li J. Factor graph-aggregated heterogeneous network embedding for disease-gene association prediction // BMC Bioinformatics. 2021. V. 22. P. 165. https://doi.org/10.1186/s12859-021-04099-3


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика