Давайте, пока у нас время есть, я ещё немножко наброшу про будущее DS в биоинформатике.
Коротко: я думаю, что потенциал огромный, будет прорыв в текущих методах + за биоинформатикой глобальное будущее, но это будет не то, что мы сегодня понимаем под биоинформатикой.
Все хотят жить долго и хорошо. И современные медицинские технологии и исследования в биологии невозможны без DS. Поэтому мне кажется, что со временем биоинфо будет становиться всё важнее и больше.
Современная биоинформатика - это скорее история про обслуживание биологии. Проблема в том, как я ворчал в четверг, что заказчик-биолог не знает, какие крутые штуки можно делать и нужно хотеть. А на алгоритмах, пусть и крутых, денег не сделаешь (и карьеру тоже с трудом).
Полигенные скоры (polygenic risk scores) Тема моего PhD. Хорошее введение на английском - тут: genome.gov/Health/Genomic… Метод, который должен был появиться 10 лет назад, наконец-то появился, и теперь позволяет нам лучше понимать генетику. Много текста. pic.twitter.com/b66D27acoO
В итоге получается история, как с полигенными скорами, про которые я говорил вчера - twitter.com/dsunderhood/st…
Метод очевиден любому DS, мог появиться на железе десятилетней давности, но появился только 3 года назад, и до сих пор используется редко.
Мой вывод - биоинформатика должна быть DS-first, чтобы выжить. На мой взгляд, всё идёт к тому, что будет появляться DS-first research, в ближайшем будущем. Данные становятся всё более доступны в масштабе, о котором мы и мечтать не могли. Пример:
В прошлом году стали доступны три крупных биобанка - UK ukbiobank.ac.uk , финский finngen.fi/en , и японский biobankjp.org/en/index.html
Теперь любой учёный может подать заявку, и за месяц-два получить доступ к подробным биологическим данным сотен тысяч человек.
И коммерческая компания тоже, при условии, что результатами поделится открыто.
в некоторых областях науки также есть крутые ресурсы, агрегирующие вообще все данные. Например, ncbi.nlm.nih.gov/geo/ собрал 4000+ датасетов по транскриптомике (к которой у меня свои претензии как к науке, правда), ebi.ac.uk/gwas/ - ~16000 GWAS исследований.
Пример: в генетике человека до сих пор публикуют анализы, сделанные на 2К-3К человек. Просто потому, что данные, особенно людей, обычно спрятаны внутри групп, и почти недоступны снаружи. А в UK BioBank есть данные 400К человек, и доступ к ним может получить любой DS.
Мне очевидно два десятка разных улучшений, которые можно попробовать сделать в плане DS в генетике. Что-то я успел попробовать в своей диссертации, но большинство - нет. Очевидно, что если больше дата саентистов, которые ещё и круче меня, попадут в эту область - будет прорыв.
Поэтому в короткой перспективе я думаю, что DS-first биоинформатика начнёт добиваться крутых успехов, и вытеснит biology-first биоинформатику, как ненужную.
В долгой же перспективе, мне кажется, что современную биологию невозможно переделать. Грубо говоря, не тур.агенства 20 века изобрели AirBnB. И биоинформатика будущего будет не совсем тем, что мы называем биоинформатикой сегодня.
Мне хочется верить, что по мере того, как tech-first подход будет приходить в биоинформатику, мы будем создавать новые направления, о которых биологи сегодня даже не думают. И будут появляться AirBnB от биоинформатики. Анализ данных секвенирования - уже такой пример.
Пример пре-процессинга и анализа данных визуализировать сложнее, но именно на эти позиции нанимают большинство биоинформатиков. Вот, например, очень хороший и стабильный, и в целом считающийся простым, пайплайн анализа данных секвенирования: pic.twitter.com/TD2UZ2UZJc
Вот этот пайплайн анализа данных секвенирования - twitter.com/dsunderhood/st… - результат долгой работы, где tech и DS определяли развитие. И сегодня секвенирование и его анализ - гораздо более "продуктовые" области, чем многие другие, хотя ...
20 лет назад казалось, что секвенирование не станет никогда коммерчески доступным. Но, оказалось, что если быть tech-first, то можно сделать крутую технологию, которая создаёт целые области науки: диагностику редких заболеваний, транскриптомику, single-cell транскриптомику и т.п.
Поэтому я верю, что за биоинформатикой будущее, но это будет не то, что мы сегодня понимаем под биоинфо. А у сегодняшнего биоинфо тоже есть огромный потенциал развития, но это тупиковая ветвь эволюции, как мне кажется.
Если у вас есть мнение про будущее биоинформатики - пишите тут, подебатируем =)
Дима Борисевич