DOI: 10.17586/2226-1494-2016-16-1-150-160


УДК57.087

РОБАСТНАЯ МОДИФИКАЦИЯ МЕТОДА ЛАССО ДЛЯ ПОЛНОГЕНОМНОГО ПОИСКА АССОЦИАЦИЙ С УЧЕТОМ ЦЕЛЕВЫХ ЗНАЧЕНИЙ ФЕНОТИПА

Уткин Л. В., Жук Ю. А., Коолен Ф. .


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Уткин Л.В., Жук Ю.А., Коолен Ф. Робастная модификация метода Лассо для полногеномного поиска ассоциаций с учетом целевых значений фенотипа // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 150–160.

Аннотация

Предложена модификация метода Лассо, используемого для полногеномного поиска ассоциаций, на примере анализа удвоенных гаплоидных линий ячменя для учета дополнительной информации о целевых значениях фенотипа, определяемого некоторым свойством растений. Со статистической точки зрения рассматривается модификация задачи линейной регрессии. Предложено формализовать дополнительную информацию о свойствах растений в виде пересечения двух множеств весов, приписываемых элементам обучающей выборки. Первое множество образовано при помощи интервальной модели засорения. Второе множество весов образуется последовательностью парных сравнений значений фенотипа. Полученное пересечение является выпуклым и полностью определяется его крайними точками, что позволяет свести модифицированный, с точки зрения использования множеств весов наблюдений, метод Лассо к конечному множеству стандартных реализаций Лассо. Результаты числовых экспериментов показали, что модификация позволяет получить более точные характеристики по сравнению со стандартным методом Лассо при малом объеме обучающей выборки.


Ключевые слова: полногеномный поиск ассоциаций, фенотип, регрессия, Лассо, модель засорения, парные сравнения, выпуклое множество

Благодарности. Работа выполнена при поддержке РФФИ, проект № 15-01-01414 и Минобрнауки РФ, проект № 2014/181-2220.

Список литературы

 1. Goddard M.E., Wray N.R., Verbyla K., Visscher P.M. Estimating effects and making predictions from ge-nome-wide marker data // Statistical Science. 2009. V. 24. N 4. P. 517–529. doi: 10.1214/09-STS306
2. Altidor W., Khoshgoftaar T.M., Van Hulse J., Napolitano A. Ensemble feature ranking methods for data in-tensive computing applications / In: Handbook of Data Intensive Computing. NY: Springer, 2011. P. 349–376. doi: 10.1007/978-1-4614-1415-5_13
3. Lee I.-H., Lushington G.H., Visvanathan M. A filter-based feature selection approach for identifying poten-tial biomarkers for lung cancer // Journal of Clinical Bioinformatics. 2011. V. 1. N 11. Art. 11. doi: 10.1186/2043-9113-1-11
4. Kohavi R., John G.H. Wrappers for feature subset selection // Artificial Intelligence. 1997. V. 97. N 1–2. P. 273–324.
5. Guyon I., Weston J., Barnhill S., Vapnik V. Gene selection for cancer classification using support vector ma-chines // Machine Learning. 2002. V. 46. N 1–3. P. 389–422. doi: 10.1023/A:1012487302797
6. Lander E.S., Botstein D. Mapping mendelian factors underlying quantitative traits using RFLP linkage maps // Genetics. 1989. V. 121. N 1. P. 185–199.
7. Lal T.N., Chapelle O., Weston J., Elisseeff A. Embedded methods / In: Feature Extraction. Springer, 2006. V. 207. P. 137–165. doi: 10.1007/978-3-540-35488-8_6
8. Tibshirani R. Regression shrinkage and selection via the Lasso // Journal of the Royal Statistical Society. Series B: Methodological. 1996. V. 58. N 1. P. 267–288.
9. Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B: Statistical Methodology. 2005. V. 67. N 2. P. 301–320. doi: 10.1111/j.1467-9868.2005.00503.x
10. Gu X., Yin G., Lee J.J. Bayesian two-step Lasso strategy for biomarker selection in personalized medicine development for time-to-event endpoints // Contemporary Clinical Trials. 2013. V. 36. N 2. P. 642–650. doi: 10.1016/j.cct.2013.09.009
11. Hayes B. Overview of statistical methods for genome-wide association studies (GWAS) // Methods in Mo-lecular Biology. 2013. V. 1019. P. 149–169. doi: 10.1007/978-1-62703-447-0-6
12. Walley P. Statistical Reasoning with Imprecise Probabilities. London: Chapman and Hall, 1991. 362 p.
13. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн.1. М.: Финансы и статистика, 1986. 366 с.
14. Huber P.J. Robust Statistics. NY: Wiley, 1981. 320 p.
15. Chutimanitsakun Y., Nipper R.W., Cuesta-Marcos A., Cistue L., Corey A., Filichkina T., Johnson E.A., Hayes P.M. Construction and application for qtl analysis of a restriction site associated DNA (rad) linkage map in barley // BMC Genomics. 2011. V. 12. Art. 4. doi: 10.1186/1471-2164-12-4
16. Cistue L., Cuesta-Marcos A., Chao S., Echavarri B., Chutimanitsakun Y., Corey A., Filichkina T., Garcia-Marino N., Romagosa I., Hayes P.M. Comparative mapping of the Oregon Wolfe barley using doubled hap-loid lines derived from female and male gametes // Theoretical and Applied Genetics. 2011. V. 122. N 7. P. 1399–1410. doi: 10.1007/s00122-011-1540-9
17. Hayes P., Chen F.Q., Corey A., Pan A., Chen T.H.H., Baird E., Powell W., Thomas W., Waugh R., Bedo Z., Karsai I., Blake T., Oberthur L. The Dicktoo x Morex population // Plant Cold Hardiness. 1997. P. 77–87. doi: 10.1007/978-1-4899-0277-1_8
 

Информация 2001-2017 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика