Тред (Дима Борисевич)

21:05

Полигенные скоры (polygenic risk scores) Тема моего PhD. Хорошее введение на английском - тут: genome.gov/Health/Genomic… Метод, который должен был появиться 10 лет назад, наконец-то появился, и теперь позволяет нам лучше понимать генетику. Много текста.

21:05

О чем речь - наши тела "запрограммированы" в последовательности нашего генома, в молекулах ДНК. ДНК папы из сперматозоида попадает в яйцеклетку, смешивается с ДНК мамы, и из этой клетке, как по программе, вырастаем мы (конечно, всё сложнее, но я опущу историю про эпигенетику).

21:05

Соответственно, последовательность генома определяет нашу "судьбу" в плане того, вырастем ли мы голубоглазыми или кариеглазыми, худыми или полными, высокими или низкими, агрессивными или спокойными и пр. На практике, окружающая среда и воспитание играет огромное значение.

21:05

НО! Генетика даёт ощутимый вклад. Например, около 30% вариации индекса массы тела (ИМТ) между людьми объясняется генетикой (R2 = 30%). При этом геном в течение жизни не меняется (это тоже упрощение), и его можно прочитать хоть у плода в утробе матери.

21:05

А многие болезни легче предотвратить, чем лечить. Соответственно, хорошо было бы знать для каждого человека его генетическую предрасположенность к разным болезням заранее, до того, как они наступят.

21:05

Идея - берем много человек, читаем их геномы, находим те места, где последовательности отличаются, и смотрим, где эти отличия скоррелированы с болезнями. Тогда, т.к. геном не меняется от болезни, мы знаем, что это отличие в геноме и вызывает болезнь, даже если не знаем механизма.

21:05

Такое исследование называется GWAS, на выходе оно даёт список мест в геноме, которые связаны с увеличением риска, и количественную оценку ("разница между носителями буквы А и буквы Т в позиции rs123456 в среднем 0.5 кг/м2").

21:05

Проблема в том, что тестируются миллионы позиций. Соответственно, если мы хотим определить конкретные важные места генома, только статистически-значимые позиции, нужно сделать запредельную поправку на множественное тестирование.

21:05

Но можно вместо того, чтобы искать конкретные позиции, просто попробовать построить как можно лучший скор, предсказывающий заболевание. Применим обычный для DS подход "training, testing, cross-validation". Тогда, можно будет из GWAS извлечь больше информации.

21:05

Скор, который берет на вход много сайтов в геноме и предсказывает предрасположенность к болезни или какой-то другой фенотип и называется полигенным. Работает хорошо - например, для ИМТ "только значимые позиции" объясняли 6% вариации, а полигенный скор - до 15% (из 30% возможных).

21:05

Текущие полигенные скоры далеки от идеала: они обычно просто учитывают отдельные позиции, но не их взаимодействия; и они не используют уже существующую обильную биологическую информацию об этих позициях. Поэтому у DS в этой области ещё огромный очевидный потенциал.

21:05

P.S. Великий фильм GATTACA, показывающий, что может произойти, если такой скоринг зайдёт слишком далеко.

Дима Борисевич