Главный редактор
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2024-24-1-101-111
Основанное на особом интересе прогнозирование протоонкогена и обнаружение возможностей его мутации в онкоген на основе первоначального анализа последовательности аминокислот
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Ссылка для цитирования:
Виджаялакшми М., Валлинаяги М. Основанное на особом интересе прогнозирование протоонкогена и обнаружение возможностей его мутации в онкоген на основе первоначального анализа последовательности аминокислот // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 1. С. 101–111 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-1-101-111
Утрата регуляторной функции генов, подавляющих опухоль, и мутации в протоонкогенах являются общими механизмами, лежащими в основе неконтролируемого роста опухолей при разнообразном комплексе заболеваний, известных как рак. Онкоген можно излечить путем диагностики и лечения возможностей протоонкогена на ранних стадиях. В последнее время подходы машинного обучения помогают сосредоточить внимание и предоставить информацию о возможностях протоонкогена, который может превращаться в онкоген при различных типах рака или изменять его на ранних стадиях. Предложен эффективный и уникальный предиктор протоонкогена с помощью нейронной сети Bi-Directional Long Short Term Memory (BiLSTM), дополненный концепцией ухода за больными. Этот подход также позволяет определить вероятность перехода от протоонкогена к онкогену с использованием статистических моментов, представления аминокислотного состава на основе положения и глубоких особенностей, извлеченных из последовательности. В работе применен классификатор K-Nearest Neighbor с помощью, которого можно определить вероятность перехода от протоонкогена к раковому онкогену.
Ключевые слова: протоонкогены, PseAAC, прогнозирование, гены опухолевой супрессии, TSG, машинное обучение, двунаправленная долговременная краткосрочная память, BiLSTM
Благодарности. Особая благодарность доктору Л. Раджагопале Мартандаму, руководителю медицины, TMCH, Индия, за его поощрение и поддержку.
Список литературы
Благодарности. Особая благодарность доктору Л. Раджагопале Мартандаму, руководителю медицины, TMCH, Индия, за его поощрение и поддержку.
Список литературы
- Williams D.E., Eisenman J., Baird A., Rauch C., Van Ness K., March C.J., Park L.S., Martin U., Mochizukl D.Y., Boswell H.S., Burgess G.S., Cosman D., Lyman S.D. Identification of a ligand for the c-kit Proto-oncogene // Cell. 1990. V. 63. N 1. P. 167–174. https://doi.org/10.1016/0092-8674(90)90297-r
- Cooper G.M. Oncogenes / 2nd ed. Jones and Bartlett Publishers Inc. Boston, 1995. 384 p.
- Mulligan L.M., Kwok J.B., Healey C.S., Elsdon M.J., Eng C., Gardner E., Love D.R., Mole S.E., Moore J.K., Papi L., Ponder M.A., Telenius H., Tunnacliffe A., Ponder B.A. Germ-line mutations of the RET Proto-oncogene in multiple endocrine neoplasia type 2A // Nature. 1993. V. 363. N 6428. P. 458–460. https://doi.org/10.1038/363458a0
- Croce C.M. Oncogenes and cancer // New England journal of medicine. 2008. V. 358. N 5. P. 502–511. https://doi.org/10.1056/NEJMra072367
- Vogelstein B., Papadopoulos N., Velculescu V.E., Diaz L.A., Kinzler K.W. Cancer genome landscapes // Science. 2013. V. 339. N 6127. P. 1546–1558. https://doi.org/10.1126/science.1235122
- Pon J.R., Marra M.A. Driver and passenger mutations in cancer // Annual Review of Pathology: Mechanisms of Disease. 2015. V. 10. P. 25–50. https://doi.org/10.1146/annurev-pathol-012414-040312
- Kulmanov M., Khan M.A., Hoehndorf R. DeepGO: predicting protein functions from sequence and interactions using a deep ontology-aware classifier // Bioinformatics. 2018. V. 34. N 4. P. 660–668. https://doi.org/10.1093/bioinformatics/btx624
- Wass M.N., Sternberg M.J. ConFunc–functional annotation in the twilight zone // Bioinformatics. 2008. V. 24. N 6. P. 798–806. https://doi.org/10.1093/bioinformatics/btn037
- Deng M., Zhang K., Mehta S., Chen T., Sun F. Prediction of protein function using protein-protein interaction data // Journal of Computational Biology. 2003. V. 10. N 6. P. 947–960. https://doi.org/10.1089/106652703322756168
- Marcotte E.M., Pellegrini M., Ng H.L., Rice D.W., Yeates T.O., Eisenberg D. Detecting protein function and protein-protein interactions from genome sequences // Science. 1999. V. 285. N 5428. P. 751–753. https://doi.org/10.1126/science.285.5428.751
- Pal D., Eisenberg D. Inference of protein function from protein structure // Structure. 2005. V. 13. N 1. P. 121–130. https://doi.org/10.1016/j.str.2004.10.015
- Huttenhower C., Hibbs M., Myers C., Troyanskaya O.G. A scalable method for integration and functional analysis of multiple microarray datasets // Bioinformatics. 2006. V. 22. N 23. P. 2890–2897. https://doi.org/10.1093/bioinformatics/btl492
- Kourmpetis Y.A.I., van Dijk A.D.J., Bink M.C.A., van Ham M. R.C.H.J., terBraak C.J.F. Bayesian markov random field analysis for protein function prediction based on network data // PLoS One. 2010. V. 5. N 2. https://doi.org/10.1371/journal.pone.0009293
- Radivojac P., Clark W.T., Oron T.R. et al. A large-scale evaluation of computational protein function prediction // Nature Methods. 2013. V. 10. N 3. P. 221–227. https://doi.org/10.1038/nmeth.2340
- Mihaylov I., Nisheva M., Vassilev D. Application of machine learning models for survival prognosis in breast cancer studies // Information. 2019. V. 10. N 3. P. 93. https://doi.org/10.3390/info10030093
- Cruz J.A., Wishart D.S. Applications of machine learning in cancer prediction and prognosis // Cancer Informatics. 2006. V. 2. P. 59–77. https://doi.org/10.1177/117693510600200030
- Sotiriou C., Neo S.-Y., McShane L.M., Korn E.L., Long P.M., Jazaeri A., Martiat P., Fox S.B., Harris A.L., Liu E.T. Breast cancer classification and prognosis based on gene expression profiles from a population-based study // Proceedings of the National Academy of Sciences of the United States of America. 2003. V. 100. N 18. P. 10393–10398. https://doi.org/10.1073/pnas.1732912100
- Vural S., Wang X., Guda C. Classification of breast cancer patients using somatic mutation profiles and machine learning approaches // BMC Systems Biology. 2016. V. 10. N 3. P. 62. https://doi.org/10.1186/s12918-016-0306-z
- Cai Z., Xu D., Zhang Q., Zhang J., Ngai S.-M., Shao J. Classification of lung cancer using ensemble-based feature selection and machine learning methods // Molecular BioSystems. 2015. V. 11. N 3. P. 791–800. https://doi.org/10.1039/c4mb00659c
- Kourou K., Exarchos T.P., Exarchos K.P., Karamouzis M.V. Fotiadis D.I. Machine learning applications in cancer prognosis and prediction // Computational and Structural Biotechnology Journal. 2015. V. 13. P. 8–17. https://doi.org/10.1016/j.csbj.2014.11.005
- Khan Y.D., Batool A., Rasool N., Khan S.A., Chou K.-C.J. Prediction of nitrosocysteine sites using position and composition variant features // Letters in Organic Chemistry. 2019. V. 16. N 4. P. 283–293. https://doi.org/10.2174/1570178615666180802122953
- Malebary S.J., Khan R., Khan Y.D. ProtoPred: Advancing oncological research through identification of proto-oncogene proteins // IEEE Access. 2021. V. 9. P. 68788–68797. https://doi.org/10.1109/ACCESS.2021.3076448
- Mahmood M.K., Ehsan A., Khan Y.D., Chou K.-C. iHyd-LysSite (EPSV): identifying hydroxylysine sites in protein using statistical formulation by extracting enhanced position and sequence variant feature technique // Current Genomic. 2020. V. 21. N 7. P. 536–545. https://doi.org/10.2174/1389202921999200831142629
- Kumar P., Henikoff S., Ng P.C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm // Nature Protocols. 2009. V. 4. N 7. P. 1073–1081. https://doi.org/10.1038/nprot.2009.86
- Vaser R., Adusumalli S., Leng S., Sikic M., Ng P.C. SIFT missense predictions for genomes // Nature Protocols. 2016. V. 11. N 1. P. 1–9. https://doi.org/10.1038/nprot.2015.123
- Yang Y., Lu B.L., Yang W.Y. Classification of protein sequences based on word segmentation methods // Proc. of the 6th Asia-Pacific Bioinformatics Conference (APBC ’08). 2008. P. 177–186. https://doi.org/10.1142/9781848161092_0020
- Ali F., Hayat M. Classification of membrane protein types using Voting Feature Interval in combination with Chou׳s Pseudo Amino Acid Composition // Journal of Theoretical Biology. 2015. V. 384. P. 78–83. https://doi.org/10.1016/j.jtbi.2015.07.034
- Allehaibi K., Daanial Khan Y., Khan S.A. iTAGPred: A two-level prediction model for identification of angiogenesis and tumor angiogenesis biomarkers // Applied Bionics and Biomechanics. 2021. V. 2021. P. 2803147. https://doi.org/10.1155/2021/2803147
- Lyu J., Li J.J., Su J., Peng F., Chen Y.E., Ge X., Li W. DORGE: Discovery of Oncogenes and tumoR suppressor genes using Genetic and Epigenetic features // Science Advances. 2020. V. 6. N 46. P. 1–17. https://doi.org/10.1126/sciadv.aba6784
- Feng P., Yang H., Ding H., Lin H., Chen W., Chou K.C. iDNA6mA-PseKNC: Identifying DNA N6-methyladenosine sites by incorporating nucleotide physicochemical properties into PseKNC // Genomics. 2018. V. 111. N 1. P. 96–102. https://doi.org/10.1016/j.ygeno.2018.01.005
- Huang C.H., Peng H.S., Ng K.L. Prediction of cancer proteins by integrating protein interaction, domain frequency, and domain interaction data using machine learning algorithms // BioMed Research International. 2015. V. 2015. P. 312047. https://doi.org/10.1155/2015/312047
- Rahman M.S., Shatabda S., Saha S., Kaykobad M., Rahman M.S. DPP-PseAAC: a DNA-binding protein prediction model using Chou’s general PseAAC // Journal of Theoretical Biology. 2018. V. 452. P. 22–34. https://doi.org/10.1016/j.jtbi.2018.05.006
- Chowdhury S.Y., Shatabda S., Dehzangi A. iDNAProt-ES: Identification of DNA-binding proteins using evolutionary and structural features // Scientific Reports. 2017. V. 7. P. 14938. https://doi.org/10.1038/s41598-017-14945-1
- Kumar R.D., Searleman A.C., Swamidass S.J., Griffith O.L., Bose R. Statistically identifying tumor suppressors and oncogenes from pan-cancer genome-sequencing data // Bioinformatics. 2015. V. 31. N 22. P. 3561–3568. https://doi.org/10.1093/bioinformatics/btv430
- Akmal M.A., Hussain W., Rasool N., Khan Y.D., Khan S.A., Chou K.-C. Using CHOU'S 5-steps rule to predict O-linked serine glycosylation sites by blending position relative features and statistical moment // IEEE/ACM Transactions on Computational Biology and Bioinformatics. 2021. V. 18. N 5. P. 2045–2056. https://doi.org/10.1109/TCBB.2020.2968441
- Khan Y.D., Ahmad F., Anwar M.W. Aneuro-cognitive approach for iris recognition using back propagation // World Applied Sciences Journal. 2012. V. 16. N 5. P. 678–685.
- Khan Y.D., Ahmed F., Khan S.A. Situation recognition using image moments and recurrent neural networks // Neural Computing and Applications. 2014. V. 24. N 7–8. P. 1519–1529. https://doi.org/10.1007/s00521-013-1372-4
- Khan Y.D., Khan N.S., Farooq S., Abid A., Khan S.A., Ahmad F., Mahmood M.K. An efficient algorithm for recognition of human actions // Scientific World Journal. 2014. V. 2014. P. 875879. https://doi.org/10.1155/2014/875879
- Khan Y.D., Khan S.A., Ahmad F., Islam S. Iris recognition using image moments and K-means algorithm // Scientific World Journal. 2014. V. 2014. P. 723595. https://doi.org/10.1155/2014/723595
- Mahmood S., Khan Y.D., Mahmood M.K. A treatise to vision enhancement and color fusion techniques in night vision devices // Multimedia Tools and Applications. 2018. V. 77. N 2. P. 2689–2737. https://doi.org/10.1007/s11042-017-4365-y
- Butt H., Rasool N., Khan Y.D. A treatise to computational approaches towards prediction of membrane protein and its subtypes // The Journal of Membrane Biology. 2017. V. 250. N 1. P. 55–76. https://doi.org/10.1007/s00232-016-9937-7
- Akmal M.A., Rasool N., Khan Y.D. Prediction of N-linked glycosylation sites using position relative features and statistical moments // PLoS ONE. 2017. V. 12. N 8. P. 1–21. https://doi.org/10.1371/journal.pone.0181966
- Pundir S., Magrane M., Martin M.J., O’Donovan C. Searching and navigating UniProt databases // Current Protocols in Bioinformatics. 2015. P. 1.27.1–1.27.10 https://doi.org/10.1002/0471250953.bi0127s50
- Delorenzi M., Speed T. An HMM model for coiled-coil domains and a comparison with PSSM-based predictions // Bioinformatics. 2002. V. 18. N 4. P. 617–625. https://doi.org/10.1093/bioinformatics/18.4.617
- Jia J., Liu Z., Xiao X., Liu B., Chou K.-C. iSuc-PseOpt: identifying lysine succinylation sites in proteins by incorporating sequence-coupling effects into pseudo components and optimizing imbalanced training dataset // Analytical Biochemistry. 2016. V. 497. P. 48–56. https://doi.org/10.1016/j.ab.2015.12.009