
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2016-16-1-150-160
УДК 57.087
РОБАСТНАЯ МОДИФИКАЦИЯ МЕТОДА ЛАССО ДЛЯ ПОЛНОГЕНОМНОГО ПОИСКА АССОЦИАЦИЙ С УЧЕТОМ ЦЕЛЕВЫХ ЗНАЧЕНИЙ ФЕНОТИПА
Читать статью полностью

Ссылка для цитирования: Уткин Л.В., Жук Ю.А., Коолен Ф. Робастная модификация метода Лассо для полногеномного поиска ассоциаций с учетом целевых значений фенотипа // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 150–160.
Аннотация
Предложена модификация метода Лассо, используемого для полногеномного поиска ассоциаций, на примере анализа удвоенных гаплоидных линий ячменя для учета дополнительной информации о целевых значениях фенотипа, определяемого некоторым свойством растений. Со статистической точки зрения рассматривается модификация задачи линейной регрессии. Предложено формализовать дополнительную информацию о свойствах растений в виде пересечения двух множеств весов, приписываемых элементам обучающей выборки. Первое множество образовано при помощи интервальной модели засорения. Второе множество весов образуется последовательностью парных сравнений значений фенотипа. Полученное пересечение является выпуклым и полностью определяется его крайними точками, что позволяет свести модифицированный, с точки зрения использования множеств весов наблюдений, метод Лассо к конечному множеству стандартных реализаций Лассо. Результаты числовых экспериментов показали, что модификация позволяет получить более точные характеристики по сравнению со стандартным методом Лассо при малом объеме обучающей выборки.
Благодарности. Работа выполнена при поддержке РФФИ, проект № 15-01-01414 и Минобрнауки РФ, проект № 2014/181-2220.
Список литературы
1. Goddard M.E., Wray N.R., Verbyla K., Visscher P.M. Estimating effects and making predictions from ge-nome-wide marker data // Statistical Science. 2009. V. 24. N 4. P. 517–529. doi: 10.1214/09-STS306
2. Altidor W., Khoshgoftaar T.M., Van Hulse J., Napolitano A. Ensemble feature ranking methods for data in-tensive computing applications / In: Handbook of Data Intensive Computing. NY: Springer, 2011. P. 349–376. doi: 10.1007/978-1-4614-1415-5_13
3. Lee I.-H., Lushington G.H., Visvanathan M. A filter-based feature selection approach for identifying poten-tial biomarkers for lung cancer // Journal of Clinical Bioinformatics. 2011. V. 1. N 11. Art. 11. doi: 10.1186/2043-9113-1-11
4. Kohavi R., John G.H. Wrappers for feature subset selection // Artificial Intelligence. 1997. V. 97. N 1–2. P. 273–324.
5. Guyon I., Weston J., Barnhill S., Vapnik V. Gene selection for cancer classification using support vector ma-chines // Machine Learning. 2002. V. 46. N 1–3. P. 389–422. doi: 10.1023/A:1012487302797
6. Lander E.S., Botstein D. Mapping mendelian factors underlying quantitative traits using RFLP linkage maps // Genetics. 1989. V. 121. N 1. P. 185–199.
7. Lal T.N., Chapelle O., Weston J., Elisseeff A. Embedded methods / In: Feature Extraction. Springer, 2006. V. 207. P. 137–165. doi: 10.1007/978-3-540-35488-8_6
8. Tibshirani R. Regression shrinkage and selection via the Lasso // Journal of the Royal Statistical Society. Series B: Methodological. 1996. V. 58. N 1. P. 267–288.
9. Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B: Statistical Methodology. 2005. V. 67. N 2. P. 301–320. doi: 10.1111/j.1467-9868.2005.00503.x
10. Gu X., Yin G., Lee J.J. Bayesian two-step Lasso strategy for biomarker selection in personalized medicine development for time-to-event endpoints // Contemporary Clinical Trials. 2013. V. 36. N 2. P. 642–650. doi: 10.1016/j.cct.2013.09.009
11. Hayes B. Overview of statistical methods for genome-wide association studies (GWAS) // Methods in Mo-lecular Biology. 2013. V. 1019. P. 149–169. doi: 10.1007/978-1-62703-447-0-6
12. Walley P. Statistical Reasoning with Imprecise Probabilities. London: Chapman and Hall, 1991. 362 p.
13. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн.1. М.: Финансы и статистика, 1986. 366 с.
14. Huber P.J. Robust Statistics. NY: Wiley, 1981. 320 p.
15. Chutimanitsakun Y., Nipper R.W., Cuesta-Marcos A., Cistue L., Corey A., Filichkina T., Johnson E.A., Hayes P.M. Construction and application for qtl analysis of a restriction site associated DNA (rad) linkage map in barley // BMC Genomics. 2011. V. 12. Art. 4. doi: 10.1186/1471-2164-12-4
16. Cistue L., Cuesta-Marcos A., Chao S., Echavarri B., Chutimanitsakun Y., Corey A., Filichkina T., Garcia-Marino N., Romagosa I., Hayes P.M. Comparative mapping of the Oregon Wolfe barley using doubled hap-loid lines derived from female and male gametes // Theoretical and Applied Genetics. 2011. V. 122. N 7. P. 1399–1410. doi: 10.1007/s00122-011-1540-9
17. Hayes P., Chen F.Q., Corey A., Pan A., Chen T.H.H., Baird E., Powell W., Thomas W., Waugh R., Bedo Z., Karsai I., Blake T., Oberthur L. The Dicktoo x Morex population // Plant Cold Hardiness. 1997. P. 77–87. doi: 10.1007/978-1-4899-0277-1_8