DOI: 10.17586/2226-1494-2018-18-6-1084-1090


УДК004.855.5: 004.032.26

ПОДКРЕПЛЕННЫЙ ПОСЛЕДОВАТЕЛЬНОСТЬ-К-ПОСЛЕДОВАТЕЛЬНОСТИ КОНКУРЕНТНЫЙ АВТОЭНКОДЕР ДЛЯ ГЕНЕРАЦИИ МАЛЫХ ОРГАНИЧЕСКИХ МОЛЕКУЛЯРНЫХ СТРУКТУР

Путин Е.О.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Путин Е.О. Подкрепленный последовательность-к-последовательности конкурентный автоэнкодер для генерации малых органических молекулярных структур // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 6. С. 1084–1090. doi: 10.17586/2226-1494-2018-18-6-1084-1090

Аннотация

Предмет исследования. Исследованы современные модели глубокого обучения для генерации целевых малых органических молекулярных структур. Исследования проводились на двух выборках размером в 250 000 лекарственно-подобных молекулярных соединений из базы ZINCи 23 000 активных ингибиторов киназ, собранных вручную из открытой базы ChemBL. Метод. Предложена модель глубокой нейронной сети, основанная на концепциях конкурентного обучения и обучения с учителем. Модель контролирует молекулярную восстанавливаемость генерируемых структур за счет использования конкурентный seq2seqавтоэнкодера и внешнего генератора. Наличие внешнего генератора обеспечивает гибкость модели в выборе архитектуры, а также позволяет подавать на вход условия для генерации. Основные результаты.  Сравнительные эксперименты показали, что предложенная модель превзошла ближайших конкурентов в экспериментах с предобучением и дообучением с точки зрения генерации валидных и уникальных молекулярных структур. Дополнительный химический анализ генерируемых структур демонстрирует лучшее качество генерации предлагаемой модели в сравнении с другими моделями конкурентами. Практическая значимость. Предложенная модель может быть использована для разработки новых лекарственных препаратов медицинскими химиками в качестве умного помощника.


Ключевые слова: машинное обучение, глубокое обучение, обучение с подкреплением, генеративные конкурентные нейронные сети, дизайн и разработка лекарств

Благодарности. Работа выполнена при финансовой поддержке Правительства Российской Федерации, грант 074-U01 и РФФИ, грант 16-37-60115-мол_а_дк.

Список литературы
  1. Holenz J. (eds) Lead Generation: Methods and Strategies. John Wiley & Sons, 2016. V. 2.
  2. DiMasi J.A., Grabowski H.G., Hansen R.W. Innovation in the pharmaceutical industry: new estimates of R&D costs //
    Journal of Health Economics. 2016. V. 47. P. 20–33. doi: 10.1016/j.jhealeco.2016.01.012
  3. Ivanenkov Y.A. et al. Small-molecule inhibitors of hepatitis
    C virus (HCV) non-structural protein 5A (NS5A):
    a patent review (2010-2015) // Expert Opinion on
    herapeutic Patents. 2017. V. 27. N 4. P. 401–414. doi: 10.1080/13543776.2017.1272573
  4. Schneider G., Fechner U. Computer-based de novo design of drug-like molecules // Nature Reviews Drug Discovery. 2005. V. 4. N 8. P. 649–663. doi: 10.1038/nrd1799
  5. LeCun Y., Bengio Y., Hinton G. Deep learning // Nature. 2015. V. 521. N 7553. P. 436–444. doi: 10.1038/nature14539
  6. Mamoshina P., Vieira A., Putin E., Zhavoronkov A.
    Applications of deep learning in biomedicine // Molecular Pharmaceutics. 2016. V. 13. N 5. P. 1445–1454. doi: 10.1021/acs.molpharmaceut.5b00982
  7. Min S., Lee B., Yoon S. Deep learning in bioinformatics // Briefings in Bioinformatics. 2017. V. 18. N 5. P. 851–869.
  8. Pastur-Romay L., Cedron F. et al. Deep artificial neural
    networks and neuromorphic chips for big data analysis:
    pharmaceutical and bioinformatics applications // International Journal of Molecular Sciences. 2016. V. 17. N 8. P. 1313. doi: 10.3390/ijms17081313
  9. Zhang L., Tan J., Han D., Zhu H. From machine learning to deep learning: progress in machine intelligence for rational drug discovery // Drug Discovery Today. 2017. V. 22. N 11. P. 1680–1685. doi: 10.1016/j.drudis.2017.08.010
  10. Gawehn E., Hiss J.A., Schneider G. Deep learning in drug discovery // Molecular Informatics. 2016. V. 35. N 1. P. 3–14.
  11. Gupta A., Muller A.T., Huisman B.J.H. et al. Generative recurrent networks for de novo drug design // Molecular
    Informatics. 2018. V. 37. N 1-2. doi: 10.1002/minf.201880141
  12. Yuan W. et al. Chemical space mimicry for drug discovery // Journal of Chemical Information and Modeling. 2017. V. 57. N 4. P. 875–882. doi: 10.1021/acs.jcim.6b00754
  13. Korotcov A., Tkachenko V., Russo D.P., Ekins S. Comparisonof deep learning with multiple machine learning methods and metrics using diverse drug discovery data sets // Molecular Pharmaceutics. 2017. V. 14. N 12. P. 4462–4475. doi: 10.1021/acs.molpharmaceut.7b00578
  14. Olivecrona M., Blaschke T., Engkvist O., Chen H. Molecular de-novo design through deep reinforcement learning //
    Journal of Cheminformatics. 2017. V. 9. N 1. P. 48. doi: 10.1186/s13321-017-0235-x
  15. Sanchez-Lengeling B., Outeiral C., Guimaraes G.L.,
    Aspuru-Guzik A. Optimizing distributions over molecular space. An objective-reinforced generative adversarial network for inverse-design chemistry (ORGANIC) // ChemRxiv.
    Preprint. 2017. doi: 10.26434/chemrxiv.5309668.v3
  16. Putin E., Asadulaev A., Ivanenkov Y., Aladinskiy V. et al. Reinforced adversarial neural computer for de novo
    molecular design // Journal of Chemical Information and Modeling. 2018. V. 58. N 6. P. 1194–1204. doi: 10.1021/acs.jcim.7b00690
  17. Putin E., Asadulaev A., Vanhaelen Q., Ivanenkov Y. et al. Adversarial threshold neural computer for molecular de novo design // Molecular Pharmaceutics. 2018. V. 15. N 10. P. 4386–4397. doi: 10.1021/acs.molpharmaceut.7b01137
  18. Sutskever I., Vinyals O., Le Q.V. Sequence to sequence learningwith neural networks // Advances in Neural Information
    Processing Systems. 2014.
  19. Goodfellow I., Pouget-Abadie J., Mirza M. et al. Generative adversarial nets // Advances in Neural Information Processing Systems. 2014. P. 2672–2680.
  20. Weininger D. SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules // Journal of Chemical Information and Computer Sciences. 1988. V. 28. N 1. P. 31–36. doi: 10.1021/ci00057a005
  21. Williams R.J. Simple statistical gradient-following algorithms for connectionist reinforcement learning // Machine Learning. 1992. V. 8. N 3-4. P. 229–256. doi: 10.1007/bf00992696
  22. Makhzani A., Shlens J., Jaitly N. et al. Adversarial autoencoders // arXiv preprint. 2015. arXiv:1511.05644
  23. Gaulton A., Bellis L.J., Bento A.P. et al. ChEMBL: a large-scalebioactivity database for drug discovery // Nucleic Acids
    Research. 2011. V. 40. N D1. P. D1100-D1107. doi: 10.1093/nar/gkr777
  24. Irwin J.J., Shoichet B.K. ZINC − A free database of commercially available compounds for virtual screening // Journal of Chemical Information and Modeling. 2005. V. 45. N 1. P. 177–182. doi:10.1021/ci049714+


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика