Роман Тезиков

Роман Тезиков

Неделя
Mar 8, 2020 → Mar 15, 2020
Темы
Work-Life
Менторство
Процессы
Выступления

Архив недели @tez_romach

Понедельник


Всем привет, друзья, на второй неделе коллективного DS-твиттера. Следующую неделю вести его буду я, Роман Тезиков (@tez_romach), Head of AI в Optia.ai Мне с вами интересно пообщаться не только о технической, но и о процессной стороне дата саенса.

План недели:
  1. Знакомство и вход в DS
  1. Технические практики
  1. Work-life balance
  1. Общение с джуниорами, менторство
  1. Выступления
  1. День рождение ODS, анонс для всех причастных к DS (aka make ds great again)
  1. Уничтожаем «профессию» дата саентиста, подводим итоги недели

Ну что ж, я выспался! Ведение DS-твиттера оказалось не сном, так что начинаем! Стоит рассказать про свой бекграунд и как я дошел до жизни такой.

Закончил мехмат ЮФУ на IT, что бы это не значило. В то золотое время там еще преподавал @_bravit. К началу третьего курса я понял, что мне необходима практика и пошел искать работу.

Я хотел заниматься «эй-ай», но на дворе 2018 год и мы исторически все еще в Ростове-на-Дону. Чем-то похожим на DS занимались пару компаний, которых можно было пересчитать по пальцам одной руки.

Даже по пальцам половины ладони одной руки 🤔

И меня занесло в геймдев. Tl;dr, который я от туда вынес: «Не лезь, оно тебя сожрет». Пишешь бекенд неделю, потом еще три недели шатаешь размер кнопочек, чтобы конверсия кликов была повыше

Такс, я напутал даты выше на два твита: когда я пошел в геймдев был 2016 год, а не 2018

Дальше мне очень повезло и я устроился в крупную ростовскую компанию с хорошей внутренней культурой разработки. На Scala-бекенд. Ребята, это было круто! Компания делает ПО для кинотеатров, их много, сервисы были высоконагруженные тот опыт меня сильно прокачал

Но даже на собеседовании я сразу с порога сказал, что хочу заниматься дэйта саенсом 😎

Чувствую, что тема плавно перетекает в наш второй пункт программы на сегодня: способы войти в дс. Но надо добить уже эту историю!

В той же компании начались эксперименты с хайповыми технологиями, в списочек попали и нейросети

notion image

^ это уже 2017 год. Хайп на нейронки был мощнее урагана «Катрина»

Я студент третьего курса, а в DS – совсем джун. Но таки выбил себе место под солнышком дата саенса и начал заниматься только им. Бекенд ушел на задний план, но опыт от туда помогает мне писать нормальный код, даже для своих экспериментов

Распозновал попкорн... 😎🍿

После универа пербрался в Москву, работать в стартап Dbrain.io , начались тусовочки с ods.ai и мой рост до мидла и синьера. Проработав год в дибрейне, ушел в optia.ai, где сейчас делаю эй-ай и руковожу процессами

Планировался long story short, вышел long story long! Все главные кулстори плавно размажу по всей недели, когда будем говорить про практики, менторство и выступления

Окажись я сейчас на смертном одре с вопросом: «Чего полезного ты сделал в жизни?» я бы ответил: «Распознавал попкорн, потом распознавал коров» И умер бы счастливый с улыбкой на лице

Возвращаемся к нашим баранам! Различные пути в DS

Data Science для многих звучит магически и притягательно. Каждый день в новостях мы читаем «Нейросети сделали X», «Нейросети победили человека в Y» и все такое

Ребята из айти, из физики и аналитики захотели заскочить в хайп

Это мудро, ничего не имею против, если что!

Человек стоит на перепутье, ему не понятно с чего и как начать изучение. Ведь Data Science – это не профессия, это область. Об этом мы еще похоливарим и покиббербуллив в воскресенье

Для всех новоприбывших в эту замечательную область: Точка невозврата уже пройдена, дс активно делится на части. Человек, который хорошо шарит в компьютерном зрении уже не факт, что шарит в распознавании текстов и наоборот

Чуваки, которые занимаются обучением с подкреплением (это разработка роботов и сеток, которые играют в игры) так вообще смотрят на CVшников, NLPшников и MLщиков сверху, как на говно. aka «хаскелисты» от мира ДС

Но, все-таки, они вместе ❤️ Под единым крылом ODS.ai. Если вы все еще не знаете, что это такое, но хотите быть частью ДС-мира, то быстрее переходите по ссылке и кликайте «Присоединиться»

Open Data Science – это огромное комьюнити на 40к человек, большая часть из которых русскоязычная. Новички там могут задавать свои новичковые вопросы, старички обсуждать новые SOTA-модели

Это точно не реклама, ибо этот твиттер тоже был создан руками людей из ods, хехе

Окей, представим, что прошлый пункт выполнен. Что делать дальше?
notion image

Для начала стоит разобраться в основных терминах и понять, что есть в дата саенсе. Сюда отлично подходит нетленочка от @vas3k. Все с нее начинали, мой дед с нее начинал, отец с нее начинал, я начинал. И ты начни! Действительно выдающаяся статья 💪🦾 vas3k.ru/blog/machine_l…

Уже имеешь опыт написания кода? Бекенд или, не дай боже, фронтенд? Штош, молодцом! Давай закидывайся видеолекциями по классическому мл и учись перемножать матрички

Базовый мл сюда: mlcourse.ai (@ykashnitsky) Диплернинг сюда: dlcourse.ai (@sim0nsays)

Продолжу в этом треде, чтобы твиттер не заваливал оповещениями ребят, которых я пинганул в прошлом

Тебе все равно придется писать код (и выгорать, хехех). Код пайплайнов обучения моделей, пайплайнов обработки данных, вполне возможно, еще и деплоя

Памятка, какие языки нужны: ❌VBA/Excel – просто нет ❌Java – ого, дед, ты чего? Нет ❌R – нет, пригодится только в 0.005% компаний ❌C++ – ну какие тебе плюсы? Ты в Я выбиваешь доли производительности? Нет ❌Haskell – я бы на это взглянул🤔 ❌Julia – еще рано, друг ✔️Python – да

Чтож, написал много всего. Но бурление вызвал только пост про языки
notion image

Распишу, чтобы не задевать чувства верующих в сиплюсплюс и матлаб: Изначальный твит был про «войти в дс», и новичку нужен питон. Не плюсы, не R, а питон. Не новичку тоже. Диплернинг сейчас – использование Tensorflow/PyTorch/Keras через питон

Внутри эти фреймворки являются биндингами к плюсам. Конечному пользователю это знать не обязательно. Не издевайтесь над людьми, перевернуть картинку через OpenCV можно и в питоне😉

Про «ограничения в железе» или производительность... Это бывает необходимо, да, понимаю. Если родина сказала делать, делаем. Но причем тут новички, хех? Да и почему необходимо ТРЕНИРОВАТЬ модели на плюсах? Мир дал вам TensorRT, ONNX Runtime, PyTorch Tracing

Т.е буквально: вы можете обучить модель на приятном языке, а потом сконвертировать и сжать во все, что угодно. Включая плюсы

Для начала о том, чем является каггл для меня. Первое знакомство с кагглом для меня было в 2016 году, тогда я попробовал свои силы во всем известном соревновании Titanic, а также в небольшом соревновании, где написал первый публичный кернел: kaggle.com/artgor/eda-and…
Языки учатся, курсы смотрятся. А дальше, ребята, только практика. Один путь – это пойти на каггл и начать учавствовать в соревнованиях. Сам я давно не участвовал, но автор прошлой недели @AndLukyane много рассказал twitter.com/dsunderhood/st…

Другой путь – это попробовать контрибьютить в Open Source проекты. Про это я могу (и буду) рассказывать много завтра! Там много боли, но это сильно тебя прокачивает в коллаборативной работе и в ответсвенности за продукт.

Не обязательно даже вписываться в уже существующие проекты. Реализуйте какую-нибудь сеточку на вашем фреймворке и выложите ее себе в гитхаб. А ревью и оценку можно получить в слаке ODS. Под это есть целые каналы #ods_code_review и #show_your_work

Вторник


notion image

Доброе утро, друзья! Сегодня поговорим про важные и полезные практики для причастных к DS

Вчера мы закончили на способах получить практику кода. Например, контрибьютить в OpenSource проекты. Ух... Как и в остальном айти, на первых порах вам может помочь чтение кода популярных опенсорсных продуктов. А выбрать уж точно есть из чего :) github.com/josephmisiti/a…

Но будьте бдительны! Читайте код, прищурив недоверчиво глаза. Далеко не всегда архитектурные решения были задуманы такими. С большой вероятностью это было «good enough, потом пофиксим»

Знаю, о чем говорю, хех. Больше года активно контрибьютил в один фреймворк для обучения моделек на PyTorch. Фреймворк зовется Catalyst и сейчас приобрел большую популярность. Так вот, каждый релиз – это был «гуд энаф, ребята, выкатываем»

Зато классно было имплементить SOTA подходы! Если хотите вписаться в опен сорс (не обязательно каталист), загляните в раздел issue в репозитории и найдите то, что вам по душе. Если удалось пофиксить баг или сделать прикольную фичу, делайте пулл-реквест, мейнтейнеры будут рады

Заодно мейнтейнеры репозитория погоняют вас по код-стайлу, что полезно

Пришли к первой практике, необходимой в DS-командах: код-стайл. Да, банально. Да, как во всем остальном IT. В реальных проектах вам нужно поддерживать код самому, его будут читать другие люди, модельки придется дебажить. Делайте код читаемым сразу! google.github.io/styleguide/pyg…

Стоит ли упоминать про Git и документацию? Надеюсь, это и так очивидно

Стоит владеть и специфичными для МЛ практиками. Логгированием экспериментов и воспроизводимостью моделей.

Эти практики независимы друг от друга, но часто употребляются в общем контексте. Логгирование метрик нужно для последующего анализа и сравнения экспериментов. Можно, писать метрики ручками в табличку и сравнивать глазами. А лучше воспользоваться mlflow.org

В твит больше не влезло. Существует, не только млфлоу, но и другие сервисы neptune.ai, wandb.com, alchemy.host Эти сервисы дают возможность запустить десяток экспериментов, вернуться спустя 2 дня и посмотреть сравнительные результаты

@dsunderhood Лучше использовать wemake-python-styleguide. Он похож на гугловский, но проверки автоматизированы: github.com/wemake-service… И можно запустить и проверить: все ли правильно сделал.
Хороший коментарий! Видел этот репозиторий, но сам еще не пробовал встроить себе. Обязательно чекну! twitter.com/elixir_lang_mo…

логгирование поможет также увидеть, какие конкретно изменения внесли больший вклад в вашу метрику Например, вы иначе аугментировали датку и это принесло больший профит, чем смена оптимизатора. Повод задуматься над датасетом

notion image

Воспроизводимость моделей нужна, чтобы мы могли честно сравнивать эксперименты между собой. Если каждый раз обучение стартует с рандома, то мы не можем быть уверены, что метрика изменилась из-за нашего вмешательства, а не просто удачного сида и локального минимума

Более того, если вы используете онлайн-аугментации и не фиксируете сиды, то каждый запуск у вас будет разное множество обучающих семплов. И сравнивать модели между собой становится очень неразумно🤔

Кажется достаточным зафиксировать все сиды и все: мир, дружба, жвачка... Хех Проблема закопана куда глубже. Особенно в мире диплернинга

Когда вы обучаете свои нейронки на видеокарте, ехидная CUDA в общем случае НЕ гарантирует воспроизводимость результатов docs.nvidia.com/deeplearning/s…

Очень важно заметить, что детерминированности нет для следующих функций - cudnnConvolutionBackwardFilter - cudnnConvolutionBackwardData - cudnnPoolingBackward Кто заметил в чем боль – вы молодцы! Ответ: в сверточных нейронках. Они ЦЕЛИКОМ состоят из конволюций и пулингов

Чем глужбе ваша сеть, тем больше накопится неточностей при forward и backward проходах и воспроизводимости никакой не будет 😥

В PyTorch, есть некоторая возможность поменять бекенд для CuDNN и сделать ее более детерминистичной pytorch.org/docs/stable/no…

В Tensorflow/Keras, на сколько мне известно, так просто это сделать не получится. Можете почитать блог моего товарища Влада Грозина, который пытался делать воспроизводимые сетки на керасе towardsdatascience.com/reproducible-m…

В каталисте, мы старались максимально облегчить создание воспроизводимых моделек, поэтому в нем все фиксируется двумя вызовами функций from catalyst.dl import utils utils.set_global_seed(seed=42) utils.prepare_cudnn(deterministic=True)

Проводили даже потом эксперимент. Десят запусков подряд с одной и той же конфигурацией модели, с одними и теми же обучающими параметрами и данными. Но первая картинка – deterministic=False Вторая – deterministic=True
notion image

На первом графике точно нельзя сравнивать эксперименты и выбирать лучшую модель. Перезапусти один и тот же эксперимент много раз – получишь разные результаты. Плохо На втором видно: один эксперимент дает одинаковые метрики! Можно атомарно менять модель/отпимизатор/лосс и чекать

Ах да, воспроизводимость в общем случае не гарантируется на разном железе. Старайтесь обучать на одинаковом железе/дровах и в докер-контейнерах ❤️ Чувствую и этот твит подогреет задницы и посыпятся ответы за железо и С 😎

Воспроизводимость еще поможет, если у вас умер прод и вам нужно восстановить модель, какой она точно была до этого

Следующая полезность: автоматизация пайплайнов. Всех ETL пайплайна (Extract, Transform, Load) для трансформации датасета Пайплайна тренировки (с валидацией и логгированием) Жизнь станет много проще, если обучение сможете перезапускать одной баш-командой

Дополнительные баллы вам, если вы этот пайплайн версионируете Хорошую надстройку над гитом делаю ребята из DVC (dvc.org). С его помощью можно связывать ваши кусочки (ETL, train, etc) в ациклический граф и потом запускать одной командой dvc repro ...

Миша Рожков очень понятно рассказал про DVC и MLFlow тут github.com/mlrepa/meetups…

Воспроизводимость это вообще моя боль. Настолько сильная, что я, Миша Рожков и Влад Грозин запилили отдельные митапы посвященные целиком пайплайнам и воспроизводимости ML-REPA (от Machine Learning Reproducibility, Experiments and Pipelines Automation) ml-repa.ru

Митапы полностью бесплатны и открыты! Провели уже 4 митапа в Москве, один в Амстердаме, скоро до Питера доберемся, хехех Если вам интересно, материалы прошлых встреч есть на гитхабе: github.com/mlrepa/meetups а новости в телеграм-канале: t.me/mlrepa

Tired of waiting for backprop to project your face into StyleGAN latent space to use some funny vector on it? Just distilate this tranformation by pix2pixHD! abs: arxiv.org/abs/2003.03581 github: github.com/EvgenyKashin/s… https://t.co/mGjb6WFV27
Оффтопик. Как же быстро эволюционируют GAN'ы twitter.com/digitman_/stat…

Похоливарим под вечер! Используете ли вы Jupyter Notebook?

Радуюсь результатам, спасибо! Мое мнение, что эксперименты не стоит проводить в ноутбуках. По причинам, которые мы обсудили раньше: в них сложно запускать много экспериментов, сложно воспроизвести потом ноутбук (все равно же какие-то ячейки пропустите, к каким-то вернетесь и тд)
notion image

Максимально подробно про jupyter посмотрите у Joel Grus, иследователя из allennlp.org I Don't Like Notebooks: docs.google.com/presentation/d…

Максимум, который я могу принять – это просмотр датасета перед обучением, посмотреть статистички да нарисовать графики. Все остальное – в пайплайны

Среда


Привет, Олимпийский! Проснулись, улыбнулись? Сегодня мы будем обсуждать work-life баланс. Все вот эти «ну щас, вот тут немного доделать, поставлю обучаться и можно будет сделать перерыв. Всмысле cuda out of memory?»

Четкого плана действий не ждите. Все это очень субъективно и подойдет не каждому. Наверное, расскажу больше про то, что стараюсь делать я сам.

Блин, я бы сам с радостью послушал, если бы мне кто рассказал как правильно жить и отдыхать
notion image

Минутка банальных твитов: ворк-лайф баланс он про разделение этих областей, но так чтобы они взаимно друг друга питали. А в нашем быстром мире есть четкая тенденция: брать на себя все больше и больше ответственности и «достигать». Ъуъ!

Прочтем, хорошую статью про эффективность (и про депрессию, в добавок) habr.com/ru/post/478962/

Ключевое
notion image

Сам я ближе ко второй категории. Внутри приоритеты постоянно сбиваются в сторону «work». Нагружаю себя задачами и инициативами.

Если не контролировать себя, то через какое-то время вы обнаружите себя на диване, смотрящем в стену. Потому что у вас завтра два дедлайна, через неделю выступление, а организм уже истратил все силы

Научитесь говорить слово «нет». Нагрузку нужно контролировать, если задач стало слишком много, не берите новые. Отложите, запишите в беклог. Без вас не пропадут. А вы у мамы такой один!

Баланс, между работой и отдыхом достигается самоконтролем Ну вот, в начале этого года я сел и задумался. Почему же я так устаю? Подсчитал сколько у меня задач каждую неделю и офигел

У меня помимо работы был еще консалтинг по ds. Вышел из него, не приносило мне радости. Был каталист, с микродедлайнами 2 раза в неделю. Уменьшил свою вовлеченность, а сейчас и вовсе оставил разработку. Очень много стресса и давления

А жизнь то где? А не было ее. Работа, дом, работа-по-дому, работа-над-проектами-из-дома.

Эта мысль тревожила меня. Как же я могу тратить энергию на работу, не возобновляя ее? Была попытка (неудачная) найти хобби. Пазлы и сборные модели не успокаивали, а лишь бесили меня😠 Сегодня в одном из реплаев упомянули Лего, хмм... Я попробую!

Зато отлично помогает выходить вечерами в город. За последний месяц я выбрался на несколько выставок и ботанический сад. Приобретенной энергии хватило, чтобы вести этот твиттер🙂

Устать можно даже имея одну (1) работу, если посвящать ей все свое время. У меня очень стойкое ощущение, что я говорю очевидные вещи. Но! Делайте перерывы, друзья. Даже если вы почти-почти доделали таску. Или вот щас еще немного и поставлю обучаться.

В таске выскочит баг, во время обучения захочется посмотреть график лосса. И вот вы продолжаете загружать мозг, хотя он просит отдых. Сделайте 10 минутный перерыв, подышите. И я схожу, позалипаю в окно...

Чтобы отвлечься от работы и перезагрузить мозг я завел себе привычку медитировать каждый день, примерно в одно и то же время. Медитация, в моем случае, это не экзотические практики, а дыхательные упражнения и отключение мозга.
notion image

В комплекте с «говорите "нет"» идет необходимость понимать свои границы. Например, это нормально, если вы не занимаетесь работой после 20 вечера. Объясните своим коллегам, что все рабочие вопросы за этим временем вы будете решать на следующий день.

Хорошо, если вы выключите все уведомления с вечера до утра (оставьте один канал, для самых-самых ЧП случаев)

Стараюсь и во время трудового дня просматривать чатики мини-батчами. Так хоть концентрация сохраняется :)

Сделал перерыв в работе и в твиттере. Вышел подышать свежим короновирусом!
notion image

Меня тут в ЛС спросили, как ложится профессиональное развитие на work-life. Научные статьи да фреймворки после работы. Если одним твитом: постарайтесь рабочее делать на работе. Если это для личного развития, забронируйте в своем календаре блок времени и уложитесь в него.

До завтра!
notion image

Четверг


Привет, дорогой читатель! Тема четверга – менторство, мотивация джуниоров, помощь в осознании их собственного прогресса

Коммуникацию стоит выстраивать исходя от поведения джуна на текущей стадии. На первой стадии ученик ждет от ментора четких инструкций и готового плана действий. На следующей ученик может сам осмысливать задания, от ментора требуется аппрув/не апрув, вдохновить, оказать поддержку

В твит выше не влезло, дополняю: Последняя стадия, которой могут достигнуть ваши с учеником отношения – полная вовлеченность в задачи и материал. Здесь принятие решений уже становится обоюдным

Важно понимать, на какой ступени сейчас ваш джуниор. Благодаря этому вы оцените, как оптимальнее выстроить работу с ним. Оптимально будет джуна на первой стадии закидать лекциями и натаскивать его, но джуну на третьей стадии от этого станет скучно и мотивацию он потеряет

Развитие навыков нелинейно. В одном из них джун может быть на третьей стадии, а в чем-то новом для себя может вернуться на первую. И это нормально.

Чек лист для начала работы с джуном: ◾️Выясните на какой стадии для конкретного навыка находится джун ◾️Определите, какой формат подачи материала подходит. ◾️Вместе с ним зафиксируйте договоренности: цели взаимодействия, формат обратной связи/контроля и ваши зоны ответственности

Как наставник, передавайте все больше отвественности обучаемому по мере его роста знаний. Самостоятельность – это навык, который тоже можно выработать

Ну и от коммуникации не уйти никуда. То, как вы подаете материал, даете оценку и критику влияет на мотивацию В любых отношениях коммуникация может быть токсичной и здоровой

Примеры токсичного общения: ◾️Оценка «Ты глупый» ◾️Осуждение: «Ты должен это уметь!» ◾️Левые правила: «Мужики так не поступают» ◾️Приказ: «Делай только так, как я тебе скажу!»

Примеры здорового общения: ◾️Высказывания чувств: «Я злюсь, если повторяю одно и тоже. Посмотри, материалы, которые я уже кидал» ◾️Факты без оценки: «Последние 3 задачи ты сделал с опозданием» ◾️Обсуждение намерений: «Давай договоримся, что вопросы ты упакуешь и отправишь пачкой»

Про здоровое общение: vc.ru/hr/65939-trudn… Ключевое: В основе ННО лежит простая модель общения: «Когда ____ [наблюдение], я чувствую ____ [эмоции], потому что мне нужно ____ [универсальные потребности]. Не могли бы вы ____ [просьба]?»

Общение такого формата помогает ясно выражать себя и свои чувства, определять то, что вам не нравится и предлагать решения, как этого можно избежать в будущем.

Пятница


С пятничкой вас! По миру бушует короновирус, отменяются международные конференции. В общем, самое время поговорить о митапах, выступлениях и как классно вы прокачаетесь, если будете выступаать, хехех

Выступить на конференции/докладе – это самый эффективный способ разобраться в чем-то. Ты осознаешь, что тебе нужно рассказать материал, а значит его нужно хорошо разобрать и структурировать! Страх облажаться тоже помогает тщательнее готовится. В общем одни плюсы

На мое первое выступление меня буквально загнал работодатель, за что огромное ему спасибо, ахах Было невероятно страшно рассказывать про Scala в аудиторию в 200 человек. Кажется, что все умнее тебя, ты рассказываешь очевидные вещи и все тебя осуждают загоняеца

По своему опыту, митапы аналогичны собеседованиям. Первым идет подготовки. Читаешь очень много материала и выжимаешь из него главное. Дальше все это дело структурируешь, в голове при этом все еще много лишней инфы. На самом митапе/собесе ты рассказываешь свои знания

Опять не уместилось в твит, какие же они маленькие, аааа Но! Ты все равно что-нибудь да запамятуешь рассказать, и когда доклад/собес закончится, в голове будет мысль, «блииин, забыл рассказать про X, Y и Z». Эти «X, Y и Z» запомнятся тебе очень и очень надолго!

Поэтому свое первое (очень стремное) выступление я помню до сих пор
notion image

Постепенно, страх выступлений сходил на нет. Делал это он не сам, конечно) Приходилось покорять все новые планки. Сначала это были выступление на внутреннем Reading Club в дибрейне, где мы каждую неделю презентовали друг другу свежие пейперы.

Это помогло на первых порах подкреплять самооценку. Не так страшено, когда твои слушатели – это коллеги и друзья! :)

Когда чуть принововился выступать среди своих, захотелось выйти в большой мир Я наткнулся на пост, что ищутся спикеры в секцию воспроизводимого МЛ на датафест (datafest.ru). Я как раз активно разрабатывал каталист и старался принести в мир больше воспроизводимости :)

Послал заявку, мне не ответили...
notion image

Ну, хех, я не отчаился. Всякое бывает, знаете ли. Возможно, моя заявка потерялась по дороге. Подождав пару дней, я написал организатору секции прям в ЛС, нужны ли им спикеры. И да, они оказались нужны, и да, моя заявка просто не дошла до адресата! Не бойтесь быть навязчивым

Датафест это крупная ДС конференция. Если быть точнее, крупнейшая в Евразии. В правилах было несколько прослушек перед самим выступлением. Крутая практика, можно работать как с любым другим продуктом. Делаем MVP, проверяем гипотезы, собираем фидбек, фиксим и на новую итерацию

При должном старании любой материал превратится в конфетку!

Составление осмысленного доклада 🧠Выпишите, какие основные мысли и идеи вы хотите вложить людям 🧠Прикиньте с каким бекграундом они к вам придут 🧠Набросайте основные мысли и сторителлинг 🧠Подберите визуализации: картинки и схемы 🧠Сократите презентацию, убрав лишнее Чеклисты❤️

Суббота


Грустная весть: сегодня должен был пройти митап в честь дня рождения ods.ai. Планировалось сделать крупный анонс, и мы бы его сегодня разбирали. Угроза коронавируса оказалось сильнее, доклады запишем на видео и выложим позднее.

Так что сегодня будет тема "Уничтожаем «профессию» дата саентиста", а завтра просто подведем итоги, еще раз покекаем над плюсистами и попрощаемся ❤️

- Привет, я датасаентист - Ок, а занимаешься то ты чем?

Именно так я решил начать этот тред! Сразу с боем И дело даже не в том, что люди-не-из-дс могут не понимать, чем ты занимаешься, но и сами люди-из-дс тоже

notion image

Вся область ДС развивается столь активно, что знания, необходимые в одной сфере, например компьютерном зрении, и знания, необходимые в рекомендательных системах уже очень разные. «С ноги» уже не залетишь из одной сферы в другую. Придется посвятить время на обучение

И сфер уже с разными технологиями расплодилось мама не горюй. - CV - NLP - RL - Рекомендательные системы - Временные ряды - Бизнес Аналитика Сори, если что-то запяматовал. Если вспомню, допишу ниже (вы тоже можете писать)

Слава богу, что хоть фреймворков под это тоже много, но не как у фронтендеров точно, хехех

Бизнесу: на задачи по NLP следует искать человека с опытом в NLP, на задачи по CV искать человека с CV

Требовать знаний всего и вся, конечно, можно. Но далеко не факт, что это будет эффективно

С «датасаентистом» есть и другие сложности. Где граница его зоны отвественности? Такс ну нужно анализировать задачу, найти датасет, разметить его, трансформировать, порисечить SOTA, поимплементить модели, обучить их, провалидировать, задеплоить, сделать мониторинг и логгинг, да?

А вот и нет, друзья. Текущий статус «ДСа» сильно напоминает начало профессии «программист». Год так 2000, да? Я тогда пешком под стол ходил, смотрю со стороны. Программист должен «сделать сайт» (бекенд+фронт+бд), настроить админку, починить компьютер и тостер заодно

Сейчас фраза «ты же программист, почини мне компьютер» считается смешной, а «ты же датасаентист, нужно разметить датасет» почему-то нет 🤔

Попробуйте с серьезным лицом на собесе сказать, что вы «Программист» или «Айтишник». Без подробностей о том, кто вы бекендер, фронтедер, мобильщик, девопс и тд Результат мне кажется будет предсказуем...

Айти уже прошел этот этап, и называть себя просто «айтишником» странно. ДС еще только идет к этому, поэтому всем нужен человек-мультитул «датасаентист» Не надо так!

Список всех гендеров. Сохрани на стену, чтобы не потерять🤔 🛠️Researcher 🛠️Data Analyst 🛠️Statistican 🛠️ML Engineer 🛠️Data Engineer 🛠️DataOps 🛠️MLOps (близкое к DataOps, но они начали делиться) 🛠️Data Steward 🛠️BI Analyst

@dsunderhood называю себя просто ИТшником. большинству людей этого хватает и даже намного понятней чем "датасаентист"
Для своих друзей, родных это нормально! В тиндере тоже можно написать так. А вот в делах и в бизнесе я хочу, чтобы область взрослела и роли явным образом делились. twitter.com/Onotoly/status…

Иронично, что этот твиттер именуется «Data Scientist»🤡

Но, пока ок, ибо тут будут выступать очень разные люди из области датасаенса. Но через год-два твиттер нужно будет делить, как сейчас есть «бекенд-сикрет», «мобильный разработчик» и тд Запомните этот твит

Чтобы вы не думали, что я выдумал эти роли, дам ссылки на описание самых непонятных. Data Steward отвечает за качество данных, privacy и security - analyticsindiamag.com/data-steward-r… - experian.co.uk/business/gloss… Пока что, как роль, есть только в крупных компаниях, типо Сбера, МТС и X5

В задачи Data Engineer'а входит сбор данных, их хранение, ETL-пайплайны - towardsdatascience.com/who-is-a-data-… - xplenty.com/blog/data-engi… Как роль, сейчас есть уже почти во всех data-командах

DataOps и MLOps – это DevOps c контейнерами, CI/CD и настройкой дата-специфичных mlflow/kubeflow/мониторингом моделей DataOps: - towardsdatascience.com/the-rise-of-da… - dataopsmanifesto.org MLOps: - towardsdatascience.com/ml-ops-machine… - towardsdatascience.com/ml-ops-challen… Необходимость в таких людях сильно растет

Все остальные роли выше, кажутся ± понятными и не требующими дополнительного пояснения, да?

Заметьте, в ролях нет никакого «разметчика данных». Для лейблинга вообще не требуется специфичных знаний. Тратить время рисерчера на разметку – это очень дорого и не рационально для бизнеса. Сейчас есть большое количество платформ, где за небольшие деньги вам разметят любую датку

Провалидировать разметку – да, за вами (точнее даже за Data Steward, хех). Исключение только если датасет крошечный и вам нужно быстро экспериментировать или вы размечаете свой холдаут.

Воскресенье


Друзья, моя неделя мемов в этом твиттере подошла к концу! Целую, обнимаю! Читать меня в тви: @tez_romach (но я не обещаю, что буду что-либо писать, хехе) Есть какие-то вопросики или просто хочется пообщаться? Тогда го в телегу t.me/TezRomacH Ниже соберу мета-тред:

Кто-то: Чтобы стирать белье в стиралка нам не нужен С++ Абсолютно любой плюсист: не, ну вы видели??? а ничего что ПО для твоей стиралка на плюсах написано??????
Понедельник был обо мне любимом и о том, как войти в датасаенс - twitter.com/dsunderhood/st… - twitter.com/dsunderhood/st… - twitter.com/dsunderhood/st… А так же мы покекали над плюсовиками: - twitter.com/dsunderhood/st… - twitter.com/dsunderhood/st… - топ коммент twitter.com/goshan__4ik/st…

Доброе утро, друзья! Сегодня поговорим про важные и полезные практики для причастных к DS
Вторник был околотехнический о полезных практиках в ДС и про ml-repa.ru митапы twitter.com/dsunderhood/st…

Похоливарим под вечер! Используете ли вы Jupyter Notebook?
Ой, вторник к тому же прошел под лозунгом no-notebooks twitter.com/dsunderhood/st…

Привет, Олимпийский! Проснулись, улыбнулись? Сегодня мы будем обсуждать work-life баланс. Все вот эти «ну щас, вот тут немного доделать, поставлю обучаться и можно будет сделать перерыв. Всмысле cuda out of memory?»
Среда про то, как работать побольше, а уставать поменьше twitter.com/dsunderhood/st…

Привет, дорогой читатель! Тема четверга – менторство, мотивация джуниоров, помощь в осознании их собственного прогресса
Про общение с джуниорами и в целом про ненасильственную коммуникацию twitter.com/dsunderhood/st…

С пятничкой вас! По миру бушует короновирус, отменяются международные конференции. В общем, самое время поговорить о митапах, выступлениях и как классно вы прокачаетесь, если будете выступаать, хехех
Пятница с историями про митапы twitter.com/dsunderhood/st…

- Привет, я датасаентист - Ок, а занимаешься то ты чем?
С У Б Б О Т А Я отменил датасаентистов в этом треде twitter.com/dsunderhood/st…

Список всех гендеров. Сохрани на стену, чтобы не потерять🤔 🛠️Researcher 🛠️Data Analyst 🛠️Statistican 🛠️ML Engineer 🛠️Data Engineer 🛠️DataOps 🛠️MLOps (близкое к DataOps, но они начали делиться) 🛠️Data Steward 🛠️BI Analyst

Если хотите стать автором недели, пишите Виктору @tiulpin 💪🏻

Ссылки