Меню
Публикации
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2023-23-5-989-1000
УДК 004.94
Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Клеверов Д.А., Шалыто А.А., Артемов М. Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, No 5. С. 989–1000. doi: 10.17586/2226-1494-2023-23-5-989-1000
Аннотация
Введение. Решение задачи предсказания иммунного ответа организма на чужеродные фрагменты белковых последовательностей, обработанные клеткой, является ключевым этапом разработки персонализированных вакцин от рака. Отбор пептидов, участвующих в иммунном ответе, представляет собой сложный многоступенчатый процесс фильтрации исходных последовательностей для презентации их фрагментов на поверхности клетки. Наиболее изученной является задача предсказания одного из этапов такой фильтрации — вероятности связывания пептидов с молекулами главного комплекса гистосовместимости. Современные методы предсказания данного этапа обычно основаны на алгоритмах, использующих искусственные нейронные сети, что не позволяет в должной мере интерпретировать результаты работы моделей. Одним из методов решения проблемы является использование интерпретируемых скрытых марковских моделей. В работе выполнен анализ задачи предсказания связывающей способности и предложен метод построения интерпретируемых моделей, учитывающих ограничения и требования предметной области. Метод. Разработан метод построения, обучения и интерпретации скрытых марковских моделей для каждого класса молекул. Построение и обучение моделей основано на поддержании архитектуры модели, способной извлекать и визуализировать связываемый участок пептида. Интерпретация возможна благодаря анализу графа модели. Основные результаты. Предложенный метод протестирован в задаче обучения модели, позволяющей помимо предсказания получать позицию связываемого участка пептида и распределение аминокислот в нем. Обучены модели предсказания для двух разновидностей молекул с использованием данных связывания. Распределения аминокислот связываемого участка совпадают с распределениями состояний модели. Паттерны последовательностей участков, извлеченные с помощью обученных моделей для двух наборов пептидных данных, соответствуют паттернам из открытых источников, что подтверждает успешную апробацию метода. Обсуждение. Интерпретируемые модели лучше описывают предметную область задачи и помогают сделать выводы о характеристиках пептидов, основываясь на информации, извлеченной из модели. Эта информация позволит исследователям лучше понять остальные шаги процессинга пептидов при иммунном ответе: изучить взаимосвязи между ними и произвести перенос знаний из моделей, обученных для одного этапа, на другие. Таким образом, предлагаемый метод построения позволит обучать модели в условиях недостатка обучающих данных.
Ключевые слова: предсказание связывающей способности, скрытые марковские модели, алгоритм Витерби, анализ данных, поиск мотива, выравнивание последовательностей
Список литературы
Список литературы
- Chen D.S., Mellman I. Oncology meets immunology: The cancer-immunity cycle // Immunity. 2013. V. 39. N 1. P. 1–10. https://doi.org/10.1016/j.immuni.2013.07.012
- Matsushita H., Vesely M.D., Koboldt D.C., Rickert C.G., Uppaluri R., Magrini V.J., Arthur C.D., White J.M., Chen Y.-S., Shea L.K., Hundal J., Wendl M.C., Demeter R., Wylie T., Allison J.P., Smyth M.J., Old L.J., Mardis E.R., Schreiber R.D. Cancer exome analysis reveals a T-cell-dependent mechanism of cancer immunoediting // Nature. 2012. V. 482. N 7385. P. 400–404. https://doi.org/10.1038/nature10755
- Corradin G. Antigen processing and presentation // Immunology Letters. 1990. V. 25. N 1–3. P. 11–13. https://doi.org/10.1016/0165-2478(90)90082-2
- Waldman A.D., Fritz J.M., Lenardo M.J. A guide to cancer immunotherapy: from T cell basic science to clinical practice // Nature Reviews Immunology. 2020. V. 20. N 11. P. 651–668. https://doi.org/10.1038/s41577-020-0306-5
- Ott P.A., Hu Z., Keskin D.B., Shukla S.A. et al. An immunogenic personal neoantigen vaccine for patients with melanoma // Nature. 2017. V. 547. N 7662. P. 217–221. https://doi.org/10.1038/nature22991
- Alspach E., Lussier D.M., Miceli A.P., Kizhvatov I., DuPage M., Luoma A.M., Meng W., Lichti C.F., Esaulova E., Vomund A.N., Runci D., Ward J.P., Gubin M.M., Medrano R.F.V., Arthur C.D., White J.M., Sheehan K.C.F., Chen A., Wucherpfennig K.W., Jacks T., Unanue E.R., Artyomov M.N., Schreiber R.D. MHC-II neoantigens shape tumour immunity and response to immunotherapy // Nature. 2019. V. 574. N 7780. P. 696–701. https://doi.org/10.1038/s41586-019-1671-8
- Reynisson B., Alvarez B., Paul S., Peters B., Nielsen M. NetMHCpan-4.1 and NetMHCIIpan-4.0: improved predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC eluted ligand data // Nucleic Acids Research. 2020. V. 48. N W1. P. 449–454. https://doi.org/10.1093/nar/gkaa379
- O’Donnell T.J., Rubinsteyn A., Laserson U. MHCflurry 2.0: Improved pan-allele prediction of MHC class I-presented peptides by incorporating antigen processing // Cell Systems. 2020. V. 11. N 1. P. 42–48. https://doi.org/10.1016/j.cels.2020.06.010
- Phloyphisut P., Pornputtapong N., Sriswasdi S., Chuangsuwanich E. MHCSeqNet: a deep neural network model for universal MHC binding prediction // BMC Bioinformatics. 2019. V. 20. N 1. P. 270. https://doi.org/10.1186/s12859-019-2892-4
- Shao X.M., Bhattacharya R., Huang J., Sivakumar I.K.A., Tokheim C., Zheng L., Hirsch D., Kaminow B., Omdahl A., Bonsack M., Riemer A.B., Velculescu V.E., Anagnostou V., Pagel K.A., Karchin R. High-throughput prediction of MHC class I and II neoantigens with MHCnuggets // Cancer Immunology Research. 2020. V. 8. N 3. P. 396–408. https://doi.org/10.1158/2326-6066.cir-19-0464
- Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. 1989. V. 77. N 2. P. 257–286. https://doi.org/10.1109/5.18626
- Ревзин Л.М., Фильченков А.А., Тулупьев А.Л. Представление многозначных линейных по структуре скрытых марковских моделей в виде алгебраических байесовских сетей // ТрудыСПИИРАН. 2012. Т. 1. № 20. С. 186–199. https://doi.org/10.15622/sp.20.10
- Eddy S.R. Profile hidden Markov models // Bioinformatics. 1998. V. 14. N 9. P. 755–763. https://doi.org/10.1093/bioinformatics/14.9.755
- Bui H.-H., Sidney J., Peters B., Sathiamurthy M., Sinichi A., Purton K.-A., Mothé B.R., Chisari F.V., Watkins D.I., Sette A. Automated generation and evaluation of specific MHC binding predictive tools: ARB matrix applications // Immunogenetics. 2005. V. 57. N 5. P. 304–314. https://doi.org/10.1007/s00251-005-0798-y
- Sarkizova S., Klaeger S., Le P.M., Li L.W., Oliveira G., Keshishian H., Hartigan C.R., Zhang W., Braun D.A., Ligon K.L., Bachireddy P., Zervantonakis I.K., Rosenbluth J.M., Ouspenskaia T., Law T., Justesen S., Stevens J., Lane W.J., Eisenhaure T., Zhang G.L., Clauser K.R., Hacohen N., Carr S.A., Wu C.J., Keskin D.B. A large peptidome dataset improves HLA class I epitope prediction across most of the human population // Nature Biotechnology. 2020. V. 38. N 2. P. 199–209. https://doi.org/10.1038/s41587-019-0322-9
- Gomez-Perosanz M., Ras-Carmona A., Reche P.A. PCPS: A web server to predict proteasomal cleavage sites // Methods in Molecular Biology. 2020. V. 2131. P. 399–406. https://doi.org/10.1007/978-1-0716-0389-5_23
- Schmidt J., Smith A.R., Magnin M., Racle J., Devlin J.R., Bobisse S., Cesbron J., Bonnet V., Carmona S.J., Huber F., Ciriello G., Speiser D.E., Bassani-Sternberg M., Coukos G., Baker B.M., Harari A., Gfeller D. Prediction of neo-epitope immunogenicity reveals TCR recognition determinants and provides insight into immunoediting // Cell Reports Medicine. 2021. V. 2. N 2. P. 100194. https://doi.org/10.1016/j.xcrm.2021.100194
- Capietto A.H., Jhunjhunwala S., Pollock S.B., Lupardus P., Wong J., Hänsch L., Cevallos J., Chestnut Y., Fernandez A., Lounsbury N., Nozawa T., Singh M., Fan Z., de la Cruz C.C., Phung Q.T., Taraborrelli L., Haley B., Lill J.R., Mellman I., Bourgon R., Delamarre L. Mutation position is an important determinant for predicting cancer neoantigens // Journal of Experimental Medicine. 2020. V. 217. N 4. P. e20190179. https://doi.org/10.1084/jem.20190179
- Andreatta M., Karosiene E., Rasmussen M., Stryhn A., Buus S., Nielsen M. Accurate pan-specific prediction of peptide-MHC class II binding affinity with improved binding core identification // Immunogenetics. 2015. V. 67. N 11–12. P. 641–650. https://doi.org/10.1007/s00251-015-0873-y
- Punt J.,Stranford S., Jones P., Owen J.A. Kuby Immunology. New York: Macmillan Education, 2019. 994 p.
- Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease // Nature Reviews Immunology. 2018. V. 18. N 5. P. 325–339. https://doi.org/10.1038/nri.2017.143
- Robinson J., Halliwell J.A., Hayhurst J.D., Flicek P., Parham P., Marsh S.G.E. The IPD and IMGT/HLA database: allele variant databases // Nucleic Acids Research. 2015. V. 43. N D1. P. D423–D431. https://doi.org/10.1093/nar/gku1161
- Тулупьев А.Л., Николенко С.И., Сироткин А.В. Основы теории байесовских сетей. СПб.: Изд-воС.-Петерб. ун-та, 2019. P. 399.
- Ng S.K., Krishnan T., McLachlan G.J. The EM algorithm // Handbook of Computational Statistics. 2012. P. 139–172. https://doi.org/10.1007/978-3-642-21551-3_6
- Forney G.D. The viterbi algorithm // Proceedings of the IEEE. 1973. V. 61. N 3. P. 268–278. https://doi.org/10.1109/proc.1973.9030
- Tareen A., Kinney J.B. Logomaker: beautiful sequence logos in Python // Bioinformatics. 2020. V. 36. N 7. P. 2272–2274. https://doi.org/10.1093/bioinformatics/btz921
- Vita R., Mahajan S., Overton J.A., Dhanda S.K., Martini S., Cantrell J.R., Wheeler D.K., Sette A., Peters B. The immune epitope database (IEDB): 2018 update // Nucleic Acids Research. 2019. V. 47. N D1. P. D339–D343. https://doi.org/10.1093/nar/gky1006
- Rapin N., Hoof I., Lund O., Nielsen M. MHC motif viewer // Immunogenetics. 2008. V. 60. N 12. P. 759–765. https://doi.org/10.1007/s00251-008-0330-2
- Berman H.M. The protein data bank // Nucleic Acids Research. 2000. V. 28. N 1. P. 235–242. https://doi.org/10.1093/nar/28.1.235
- Andreatta M., Lund O., Nielsen M. Simultaneous alignment and clustering of peptide data using a Gibbs sampling approach // Bioinformatics. 2013. V. 29. N 1. P. 8–14. https://doi.org/10.1093/bioinformatics/bts621
- van Balen P., Kester M.G.D., de Klerk W., Crivello P., Arrieta-Bolaños E., de Ru A.H., Jedema I., Mohammed Y., Heemskerk M.H.M., Fleischhauer K., van Veelen P.A., Falkenburg J.H.F. Immunopeptidome analysis of HLA-DPB1 allelic variants reveals new functional hierarchies // The Journal of Immunology. 2020. V. 204. N 12. P. 3273–3282. https://doi.org/10.4049/jimmunol.2000192
- Koşaloğlu-Yalçın Z., Sidney J., Chronister W., Peters B., Sette A. Comparison of HLA ligand elution data and binding predictions reveals varying prediction performance for the multiple motifs recognized by HLA‐DQ2.5 // Immunology. 2021. V. 162. N 2. P. 235–247. https://doi.org/10.1111/imm.13279
- Kawashima S., Kanehisa M. AAindex: Amino Acid index database // Nucleic Acids Research. 2000. V. 28. N 1. P. 374–374. https://doi.org/10.1093/nar/28.1.374