Женя Кашин

Женя Кашин

Неделя
Mar 30, 2020 → Apr 5, 2020
Темы
Мемасики
Стартапы
Computer Vision
GAN
Академия

Архив недели @digitman_

Понедельник


Всем привет, следующую неделю мы будем обсуждать мл, дл, кеки и все такое. У меня нет какого-то четкого плана по дням, но я тут накидал тем, которые можно пообсуждать в рандомном порядке: - дип ленинг - собесы - ресерч - стартапы - консалтинг - пет проджекты, хакатоны - мемы

Тлдр обо мне: Женя Кашин @digitman_, последний год занимаюсь ганами и компьютерным зрением в Яндексе. До этого работал в Dbrain и Surf(не кофе), тоже делал мл и дл. В датасаенсе с 16го года, до этого кодил на js(мне пришлось)

And now for some awkward generative entertainment. Some of those characters are definitely adversarial. twitter.com/pytorch_warrio…
Из последних проектов моей команды в Яндексе: - написали статью про ганы, о которой твитнул Лекун twitter.com/ylecun/status/… - запустили галерею нейросетевого искусства yandex.ru/lab/ganart с глубокой задумкой

А это чуть более старый проект, с конца прошлого года - стенд с перетеканиями лиц для блогерского эвента(конечно меня пригласили не только как разраба)
notion image

Я представился, теперь интересно немно узнать о читателях. Ты вызывал хоть раз фит-предикт?

Прочитал где-то, что если надевать кросовки во время работы на удаленке из дома, то мозг будет лучше переключаться. Сегодня буду тестить

Про стартапы. Я участвовал как один из создателей в 2х стартапах. Как работник - еще в одном. Первый стартап, который мы начали с ребятами из ВГУ еще в конце моего первого курса - “Дыши играй”.

Реабилитация детей после бронхолегочных болезней в игровой форме. Кстати сейчас наверно было бы актуально не только детям. Было весело - делали игры, тестили на детях, получали гранты. Но чем ближе к внедрению, тем грустнее - нужны годы тестирований(медицина ж), и мы забили.

Следующий стартап с “эй-ай” - Masterpiece, принесший 2е место в конкурсе от Atos в Париже. Тоже с ребятами из ВГУ. Чатбот для музеев с визуальным поиском по картинам и нейросетевой “болталкой”. В итоге у нас даже была рабочая демка, но опять все закончилось на этапе внедрения.

Последний стартап - Dbrain, там я уже чисто писал код и общался с заказчиками. Но прикольная атмосфера стартапа конечно все равно чувствовалась. Дальше хочется сагрегировать какие-то общие особенности работы в стартапах, ну и услышать другие мнения конечно

notion image

Кстати, когда мы заняли 2е место Atos IT Challenge 2018, в каком то русском журнале перепутали и написали о призовых 5млн евро, вместо 5тыс. Было забавно читать сообщения от друзей и близких

А ты пробовал "стартапить"?

notion image

Стартапы это: - больше стресса, потому что от тебя больше зависит - больше дофамина, по той же причине - часто, ненормированный график, но тебе норм, потому что тебе нравится - за гранты надо отчитываться

- много эй ая приходиться делать в поверпоинте - маленькая команда, хорошо знаешь всех, с кем работаешь - скорее всего, люди вокруг тебя достаточно проактивные - полезный нетворкинг - можно/приходиться делать и фронт, и бек, и общение с клиентами

notion image

Тут можно сразу накинуть несколько плюсов больших компаний(типа Яндекса): - оч комфортный офис(особенно понимаешь это, работая из дома) - акции компании не фантики - у компании много денег на твой комфорт - страховка, конференции, "неграниченное" железо, питание, тренинги

В жизни человека, занимающего компьюетерным зрением, бывают дни, когда ты по 4 часа подряд сидишь и отсматриваешь ошибки разметки своей модели. Например сегодня. Теперь смотрю на рельный мир и на автомате "анотирую" как разметку

Плюсы карантина - лекции ШАДа для студентов проводят в зуме, и теперь не нужно бороть лень и идти после работы в Мамонтов
notion image

Одно из главных различий маленьких компаний/стартапов и больших - оплата твоей работы. В маленьких компаниях денежный диапазон сильно шире, много зависит от того, как будешь “торговаться” на входе.

В больших - процессы давно устоялись, есть система грейдов, поэтому у людей на одном уровне не очень большая разница в зп. Оплата в больших компаниях складывается из оклада, акций + сайнап в первый год(единоразовый бонус на входе). Что в сумме за год обычно дает больше денег

Как оценивается результат твоей работы. В маленьких компаниях у меня были условные ориентиры, “хорошо работай, повысим зп". В рандомный момент времени ты мог подойти и попросить больше, или начальник сам тебе мог повысить зп

Я не говорю, что это плохо. Дофамин как раз повышается, когда получаешь неожиданную награду

В больших компаниях(на примере Яндекса) - система ревью. Раз в полгода тебя “калибруют” на твоих коллег того же грейда. В зависимости от выполнения тобой заранее заданных целей и относительного перфоманса твоих коллег, тебе ставят оценку.

Оценка уже напрямую мапится в прибавку оклада, бонус и дополнительные акции. В общем, кажется система с грейдами честнее, но если ты мощный/хитрый и хочешь побыстрее подняться, она может тебя тормозить

Любимый мем в тему денег
notion image

Если сравнивать константную зп, и зп + акции, что выберешь? Условных 30 рублей в месяц и все, или 20 рублей в месяц + 240 рублей акциями(равносильно +20 в месяц), который можно продать только через год работы

Как видно по опросу, большинство выберет акции. Это и правда удобно(кроме того, что в сумме за год обычно и выгоднее) - если ты не собираешься менять компанию раньше чем через год, то это позволяет тебе не задумываться о накоплениях, ты как бы уже ИНВЕСТОР

Также, следующий вестинг после года уже будет каждые 3 месяца. Ну и потенциально тебя это мотивирует "повышать" стоимость акций твоей компании

Но есть и существенный минус, о котором я слышал несколько раз. Когда каждое ревью тебе дают акции, которые вестятся в течении 4х лет, в какой то момент это становится большой частью твоего дохода. Тебе становится тяжело принимать решение об уходе, потому что тогда все сгорает

Вторник


Почему я пошел в Яндекс? Если бы меня звали в компьютерное зрение или беспилотники, я бы слился. Но год назад Крайнов создал Лабораторию машинного интеллекта, которая должна заниматься “хайповыми” штуками,ганами,пиаром. Интересные задачи перебороли во мне минусы больших компаний

Ганами я начал интересоваться, работая в Dbrain. Но это было вне работы, пет проджекты по перекрашиванию лошадей в зебр, чтение статей. Потом с ребятами, которые сейчас работают в х5, участвовали в хакатоне от PicsArt. Там как раз нужно было делать что-то с изменением картинок.

Мы сделали DeepAnon - штука, которая позволяет анонимизировать твою фотку: изменить фон, одежду и лицо. Но так, чтобы твои друзья все равно поняли, что это ты
notion image

Но судьям не особо зашло, и мы под конец резко пивотнулись просто в изменение одежды и фона, как “красивый” фильтр. В итоге после хакатона мне захотелось серьезнее заниматься ганами(генеративными моделями). Подробнее про DeepAnon писал на хабре habr.com/ru/company/ods…
notion image

notion image

Заниматься табличным мл очень скучно - просто числа, метрики и унылые графики. Заниматься зрением - чуть менее скучно, ты хотя бы видишь картинки, можешь порадоваться предсказанным кое-как баундинг боксам на изображение

Ну и самое веселое(не считая рл) - ганы. Ты можешь применять обученную менять пол модель на лицах своих друзей, превращать кошек в собак, делать разные перетекания в знаменитостей, да и просто генерировать всякую крипоту

Метрики в ганах очень плохие, поэтому тебе не придется смотреть на числа, будешь смотреть после каждой эпохи на результаты генерации глазами, чистый кайф

Мест, где занимаются ганами достаточно мало. В основном это развлекательные приложения - снепчат, градиент, телепорт, призма, маскарад. Многих уже давно кто-то поглотил.

Поэтому можно сказать мне повезло вовремя появиться в Яндексе и начать заниматься ганами не как хобби, а как работой. Думаю, по сравнению с большинством продуктовых команд в Яндексе, у нас больше свободы, почти все проекты и идеи мы(разработчики) придумываем сами

Возвращаясь к теме Яндекса, чтобы норм понять минусы, нужно наверно подольше тут поработать. Как я понимаю, самый большой минус - многие тут остаются на очень долго из-за комфорта и акций, возможно из-за этого ты перестаешь активно развиваться

Еще минус крупных компаний - много своих внутренних инструментов, меня поначало это прям очень демотивировало. Свой "гит", свой "sql", свои базы данных, а раньше даже был свой "тензерфлоу". Но если абстрагироваться и смотреть на это как на инструменты, то норм

Минус - почти никого не знаешь, очень много людей, которые по сути твои коллеги, но ты без понятия кто эти люди. Но впринципе общения только со своей коммандой хватает

А ты учишь/хотел бы учить ганы?

Для тех, кто уже может в дипленинг, но хочет еще и в ганы, я бы советовал начать с вот этого репозитория github.com/junyanz/pytorc… Посмотреть, как все просто и красиво закодить. Перед этим конечно было бы неплохо почитать или посмотерть что то про ганы, если вообще не слышали

Из раздела "посмотреть" самый топ - это туториал от бати ганов Гудфелоу youtu.be/HGYYEUSm-0Q

Если лень и надо прям "быстро", то есть справка от гугла developers.google.com/machine-learni…

pytorch.org/tutorials/begi… очень подробный туториал по самому простому гану для изображений от команды пайторча

Очень подробно про про StyleGAN - текущую соту по генерации случайныз изображений, а также его предшественников, на примере аниме лиц gwern.net/Faces

Ну и для быстрого расширения кругозора полезно ознакомиться с разнообразием подходов blog.floydhub.com/gans-story-so-…

А еще я тут вспомнил, что рассказывал в Инополисе про ганы, и что уже сейчас ими можно делать youtu.be/6CMc-3sIuP4

После того, как ты базово разобрался с идеологией ганов, сделал гит клон с гитхаба и обучил свой генератор кошечек, можно переходить к чтению пейперов

Раньше я думал, что вот сейчас прочитаю все старые пейперы, которые лежали в основе современных ганов, а потом то уже можно читать самые свежие. Но оказалось, что за последние 5 лет пейперов по ганам, которые "маст рид" накопилось очень много

У меня до сих пор в беклоге много непрочитанной годноты. Особенно, когда пытаешься разобраться, почему ганы вообще работают и что на это влияет(таких теоретических пейперов тоже много). Поэтому сначала я бы точно не советовал закапываться в старые статьи, а сразу начинать новые

А вечером я наверно расскажу о том, как написать свой пейпер по ганам, и какие "уроки" я из этого извлек

Схема обучения ганов в одной картинке
notion image

И еще немного жизненных мемов
notion image

notion image

Про статью, которую мы написали в нашем отделе arxiv.org/abs/2003.03581 Еще прошлым летом мы в Яндексе начали эксперименты с генерацией лиц, в основном с StyleGAN. В его латентном пространстве можно найти направления пола, возраста и другие

Но чтобы их применить на своем лице, нужно найти вектор лица, через бекпроп. А это очень долго и требует больше 1ой минуты. Много чего попробовав для ускорения, мы сошлись к очень простой идеи

Нагенировав много синтетических парных данных, например мужчин, превращенных в женщин, обучили на этом pix2pixHD. Это простой ган, которому нужны пары изображений, например один и тот же человек в виде мужчины и женщины(такой датасет тяжеловато достать)

And now for some awkward generative entertainment. Some of those characters are definitely adversarial. twitter.com/pytorch_warrio…
В результате мы получили генератор, которой может делать только одну трансформацию с входным лицом, зато очень быстро. Пейпер очень горячо зашел в твиттере и долго висел в разных топах у агрегаторов twitter.com/digitman_/stat… twitter.com/ak92501/status… twitter.com/ylecun/status/… - Лекун
notion image

Дальше будут интересные факты, которые могут пригодится тем, кто как и я до этого, ни разу не писал статьи. Формула норм статьи: хорошие результаты + новизна + хорошо написана.

Мастхев советы: - завести гугл таблицу со всеми экспериментами, самые главные колонки - урл чекпоинта весов и метрика - перепроверить сто раз, что до тебя никто еще не написал такое - начать запускать кучу экспериментов параллельно как можно раньше -чаще синкаться, кто что делает

Было бы хорошо: - консультироваться с кем то из ресерч среды - взять в свою тиму кого, кто уже писал статьи - сделать вирусную тайтл картинку, которую будут потом все шарить - измерять результаты генерации людьми, а не только метриками

А вот как распределить порядок авторов, если каждый считает, что он херачил больше всех - непонятно. Мы решили это звездочкой, но есть много точек преткновения, например, все равно кто-то будет написан первый или в чей гитхаб постить

notion image

Запустить предыдущие подходы(статьи) на своей задаче обычно оказывается огромным челленджем. Даже если решают ту же задачу, часто выложенный код генерирует изображения плохого качества. Ну или авторы не выложили код даже спустя пол года после статьи
notion image

Даже попали в мемы
notion image

В общем полистайте статью, там много прикольных картинок. Вот еще невошедшее "направление" - открывание глаз на фото, особенно прикольно на азиатах
notion image

А вот как выглядел синтетический датасет для такой трансформации: по центру случайно сгенерированное лицо, слева вектор зыкрывания глаз, справа вектор открывания глаз
notion image

Был альтернативный вариант обложки статьи
notion image

Ну и вершина всратости - применить покадрово на гифку смену пола
notion image

Среда


Еще одна интересная область: рл - обучение с подкреплением. Как многие начинают заниматься программированием, потому что хотят делать игры, так и с рл - многие начинают им заниматься, потому что хотят играть в игры. Цель рл - выучить оптимальное поведение агента в среде.

Например, научить бота играть в доту(уже есть), или робота делать делать завтрак(пока вроде нет). Вспоминая аналогию с ганами, почему рл интересно - тут есть результат, который можно и нужно отсматривать глазами. Вдобавок тут даже можно “поиграть” со своим алгоритмом.

В теории, рл можно использовать для обучения роботов бостон дайнемикс, но вроде как они обходятся и без рл
notion image

Я начал интересоваться этой темой в 17ом году, почитал статеек от индусов(тогда я еще не мог в пейперы). Повторил пару туториалов, чтобы научить агента играть в древние атари игры. И так совпало, осенью 17го года сбер как раз проводил конкурс по игре в покер(звучит круто).

Жиза
notion image

Я прошел в финал со своим рл алгоритмом и поехал на офлайн часть в Москву, познакомился с кучей крутых людей из одс - нужно было объединяться в команды. Мы улучшали рл бота 2 дня подряд и даже получали прирост винрейта. Но в итоге - разочаровался в рл.

Как программисты играют в покер
notion image

Переписав в последние несколько часов конкурса рл алгоритм на кучу ифов на плюсах, мы смогли в 2 раза улучшить винрейт. Кстати вот тот бот на рл github.com/EvgenyKashin/T… Количество звездочек от индусов до сих пор иногда растет, но я то знаю, что с ним не разбогатеть

Охладев к рл на несколько лет, прошлой осенью снова вспомнил про него, т.к. увидел интересный конкурс MineRL. Освежил знания, начитавшись много новой инфы, смог научить бота рубить деревья, что оказалось даже неплохо на фоне остальных, но ничего не занял.

После этого до сих пор слежу за областью, иногда читаю пейперы. А через пару недель даже прочитаю лекцию для адвансд курса от DeepPavlov по Model Base RL deeppavlov.ai/rl_course_2020 Кстати там есть записи предыдущих выступлений, рекомендую

Модел бейс рл - это когда агент не пробует случайные действия в тупую, а имеет какие то знания о мире(даже если выученные в процессе) и действует чуть более осмысленно(планирует). Например, с помощью модел бейс рл можно научить руку перебирать шары всего за 2 часа(оч быстро)
notion image

Если кто то смотрел 4ый сезон Рика и Морти, то там есть хороший пример в 3ей серии - робот, который пытался "планировать" все возможные варианты будущего, тем самым всегда действовал оптимально
notion image

А ты учишь/хотел бы учить рл?

Анологичная подборка по рл. Опять же, сначала лучше разобраться с классическим мл и дл. Для тех, кто сразу хочет перейти к практике есть отличный официальный туториал от команды пайторча pytorch.org/tutorials/inte…

Имхо, самая лучшая подборка инфы от опен эй ай spinningup.openai.com/en/latest/ Тут минимум необходимой теории, имплементация самых популярных алогритмов, советы для тех, кто хочет начать заниматься ресерчем в рл, а также список маст рид статей

Очень классный блог пост от кумира миллионов Карпатого karpathy.github.io/2016/05/31/rl/ Тут он имплементит базовые алгоритмы на чистом нумпае, есть красивые визуализации, чтобы интуитивно понять, как работает рл

github.com/higgsfield/RL-… а тут есть минималистичные имплементации самых попсовых статей, кстати когда я пробовал читать и имплементить статьи, то как раз шел в таком же порядке как здесь. У этого чувака есть еще 2ая часть

Самый главный минус рл - скорее всего это так и останется для тебя просто хобби. Поэтому если смотреть на это просто как на развлечение или саморазвитие через изучение чего то нового, то все классно. С ганами в принципе также, но шанс заработать деньги через рл явно ниже.

Мест где его применяют очень мало, в основном туда очереди из топовых ресерчеров. Ну да, еще можно тоже становится топовым ресерчером и ехать на пхд в Беркли. Только опять же, в Беркли очередь из студентов, у которых по несколько статей на топовых конфах.

Из более прикладных минусов рл - тут в принципе опять схоже с ганами, пейперы часто не воспроизводятся, но тут чаще не из-за обмана ресерчеров, а потому что рандом сид(случайность) решает.

А если хочется обучить что то крутое, типа бота для доты2, то понадобится тонна железа и месяцы вычислений. Многие считают, что с таким объемом вычислений можно было найти решение просто случайным поиском по весам финальной сетки. Да, рл не всегда лучше случайного поиска

notion image

notion image

Ну и не случайно самое частое окружение в большинстве пейперов - это атари. Реальный мир намного более сложный и случайный, чем игра в понг. Большинство алгоритмов просто очень хорошо заточены под окружение, и никогда не заработают на реальных задачах

Почему так мало компаний используют рл - потому что большинство задач можно решить без рл. Даже такую сложную задачу как управление роботом, бостон дайнемикс решают более надежными классическими алгоритмами

notion image

Ну а если вас все же позовут делать рл в какую то компанию, то скорее всего вы будет обучать не роботов, а в лучшем случае делать рл рекомендашки или оптимизировать запросы к бд

Выкидывайте свои калькуляторы и юзайте ганы для сложения чисел habr.com/ru/company/yan… Крутой пет проджект от моего бывшего коллеги и соавтора в нашей статье по лицам

Кстати ган с обложки профиля(самый верх страницы) сейчас еще обучается и потихоньку сходится
notion image

Семинары ШАДа по алгоритмам тоже в тренде. Я не прохожу конечно этот курс, там нужно прям думать
notion image

То ли дело
notion image

Четверг


Выбор между индустрией и академией. Где то год назад меня начали посещать навязчивые мысли, о том, что нужно делать PhD. Тогда я глубоко вопрос и пришел к выводу, что все таки пхд переоценен

Наверно у многих, кто занимается дл тоже возникают мысли, что “хочу не просто гит клон чужих нейронок, а создавать свои”. Заняться ресерчем на фулл тайм за норм деньги можно в очень ограниченном количестве мест, в большинстве из них требуется пхд.

Для того, чтобы попасть на норм пхд нужны норм статьи на конференциях - получается замкнутый круг. Под “норм пхд” я подразумеваю место, где реально изучают что-то новое, у лабы есть крутые публикации, а твой научник топовый чувак.

Тогда я прочитал много тредов на реддите про “академия против индустрии”. Например old.reddit.com/r/MachineLearn… old.reddit.com/r/MachineLearn… Большинство людей там за индустрию и отговаривают от академии - меньше политических игр, больше денег, меньше стресса и разочарований

Понятно, что тут все индивидуально. Подумав тогда для себя, так ли интересен мне на самом деле ресерч, или все же для меня важнее решать задачи и видеть результат(чего в ресерче будет явно меньше), я выбрал индустрию.

В плане карьерных перспектив - большинство тех кто “за” говорит, что все же потратив 5 лет на пхд, перед тобой откроются все двери. Но это опять же при условии норм пхд, и возможно за 5 лет в индустрии твои коллеги “разовьются” намного дальше чем сможешь ты после окончания.

Перед подачей на пхд, очень важно написать хотя бы одну статью, и даже не для более красивого резюме, а чтобы понять, нравится ли тебе вообще писать статьи, ведь этим придется заниматься большую часть времени.

Еще один инсайт - идти на пхд, только ради того, чтобы потом пойти в индустрию и грести деньги плохая идея. Скорее всего это все равно не даст чего то больше чем L4 в условном гугле. Особенно если сравнивать себя с кем то, кто сразу пошел в индустрию, даже если на джуна.

Я кстати проводил интересный эксперимент на ICCV19(конфа по зрению) в прошлом году. Подходил к стойкам крупных компаний и спрашивал про "карьер опортьюнити" в их ресерч группах. В половине случаев говоря о своем индустриальном опыте, а в другом, говоря, что у меня пхд(не правда)

Естественно рекрутеры на стойках намного более охотно и дружелюбно общались, услышав про пхд, просили оставить контакты. А в случае просто индустриального опыта предлагали лучше посмотреть на инженерные вакансии.

Накидывайте ваши кулстори про "академия или индустрия", нужен ли пхд и зачем

PhD в дл

Что думаете про работу в дс в перспективе ближайшего полугода? Первый вариант - из-за кризиса все компании начнут сокращать издержки, урезать бюджеты на рекламу, следовательно многим айти компаниям, которые питаются рекламой, станет грустно - будут сокращения

Второй вариант - все бизнесы переходят из офлайна в онлайн, следовательно будет больше данных, нужно будет больше дс-ов

Дата саентистов

Конечно, если ты дс в какой нибудь компании, занимающейся доставкой еды, или zoom-е(там есть дсы?), то скорее всего у тебя все будет хорошо. Что будет с ресерч чуваками, которые занимаются тем, что не приносит в краткосрочной перспективе прибыли? Пора перекатываться в бекендеры?

notion image

Кстати литкод(сайт с задачами по программированию) как бы намекает, что пора бы уже начать повторять задачки, и запускает 30 дей челендж. По задаче каждый день. Решил вот первую leetcode.com/explore/other/…

Но вообще, никогда не понимал тех, кто прям кайфуют от таких задачек
notion image

Пятница


Про аутсорсовые проекты и консалтинг. По сути до Яндекса, компании, в которых я занимался мл - Surf и Dbrain, делали проекты в мл на заказ. Поэтому у меня накопилось достаточно много наблюдений за тот период работы.

Перейдя из мл консалтинга в “технопиар” я решил увековечить знания и снял видос про своё видение мл/дс аутсорса/консалтинга youtu.be/ajfBpyMo4C4 А потом еще один про лайфхаки youtu.be/xwXxI5yjO7c уже на канале Fless

Не вижу смысла тут пересказывать содержание, поэтому чеклист, кому стоит смотреть: - хочешь перейти в консалтинговую компанию - начинаешь заниматься мл и тебе интересно, кому и для чего он нужен - ты опытный, будет интересно сравнить опыт и прийти новым выводам в дискуссии

В первом видео в основном про что такое консалтинг, зачем компании отдают свои проекты, какие особенности у таких проектов и как они прайсятся.

Второй видос уже более практический. Там рассказываю про неочевидные сразу штуки, которые лучше узнать раньше. Всего 17 лайфхаков про сбор требований, общение с клиентами, разработку и презентации решений. Ну и конечно несколько мемов внутри.

После этого видео был крутой фидбек от Леши Хахунова, по спорным моментам. Самое важное - лучше вообще не делать бесплатный ресерч для клиента. Лучше разбить работу вначале на два этапа, где первый - чисто анализ без кпиай на результат

Надо оговориться, что я не работал в тройке, в которой тоже есть датасаентисты. По-моему на Fless канале было несколько видосов-интервью с кем-то из тройки. Думаю многое из моего опыта можно переложить и на такой “большой” консалтинг(кроме зарплаты кекеке)

Еще был вопрос, как понять, что проект дно и как изящно откатиться. Часто сильно упрощает опыт предыдущего взаимодействия с клиентом. Например в Surf часто клиенты, для которых мы делали мл, перед этим заказывали у нас мобильные приложения. По нему можно понять общую адекватность

Более общеприменимые правила - думаю не стоит брать проекты, если у клиента перед этим не налажены базовые процессы сбора данных, иначе можно глубоко закопаться на этом этапе. Можно накидать им план, чего нужно сделать, после чего они смогут перейти к мл.

Часто на основе опыта, у тебя есть какие-то эмпирические значения навскидку, насколько точно можно предсказывать. Например, цену билета. Клиент без опыта в прогнозировании может ожидать, что эйай может предсказывать с точностью до рубля. Тут лучше сразу задать клиенту рамки

Протестировать как будет работать финальный продукт можно без мл, например, сделав заглушку на эвристиках, или даже посадив человека “за ширму”. Тогда можно будет раньше понять, что мл в итоге ничего не улучшит в процессе.

Про поинт выше - не думаю, что в долгосрочной перспективе есть смысл "впаривать" клиенту мл, если вы сами понимаете, что он там не нужен

Элегантный вариант слиться от проекта - "у вас пока мало данных. Для того, чтобы попробовать решить вашу задачу нужно собрать минимум X наблюдений/дней/полетов"

Вообще, спустя год, с ностальгией вспоминаю моменты консалтинговой работы - когда ты по несколько раз в неделю ездишь такой деловой к клиентам, рассказываешь им про мл, что можно им делать, а что нет, пишешь формулы на салфетках в ресторане.

Самая интересная работа для датасаентиста в:

Суббота


Любимые мемы про дл, которые негде было использовать. Докидывайте своих
notion image

notion image

notion image

notion image

notion image

Не помню откуда большинство, но норм мемы тут facebook.com/convolutionalm… или тут t.me/weirdreparamet…

@dsunderhood Заводил тред с мемасами на кэггле kaggle.com/general/76963#… А так еще ∏ρ؃uñçτØρ Øπτµç∑ топчик t.me/profunctor_io
Мемы на кагле топ twitter.com/ykashnitsky/st…

Воскресенье


Сначала я думал, что напишу что-то полезное о собесах, но про алгоритмы уже было, литкод я уже рекламировал. Инфы о “как подготовиться” в последний год стало очень много. Поэтому мне кажется более интересной темой - как понять, что пора переходить в другое место, что оффер “норм”

Не рассматривая банальные причины, типа не комфортно работать и мало платят. Думаю, что менять место нужно, если чувствуешь, что “здесь” мало импакта, а "там" будет много.

Нужно понимать, что новое место до перехода, кажется лучше, чем оно есть на самом деле. Если оно кажется таким же как текущее - скорее всего оно хуже. Информация о работе всегда асимметрична - про текущую работу ты знаешь все, про новую - только хорошее.

Важно норм дорабатывать последние дни при уходе. Нужно оставлять о себе хорошее мнение, наша область достаточно мала, возможно тебе еще придется работать с этими людьми. Если серьезно накосячить в крупных компаниях, то, как я слышал, инфа хорошо распространяется между компаниями.

Сколько минимум нужно проработать в компании, чтобы это не смотрелось плохо в резюме? Не рассматривая случаи, что компания развалилась, тебя сократили, или там было ну очень плохо

Еще хотел про петпроджекты, но тут уже до меня хорошо было рассказано про их пользу. Можно смотреть на это как на хобби, как на способ выделиться среди других при подаче на вакансию или даже как на начало будущего стартапа единорога.

При изучении нового самое главное практика, а не теория. Изучение теории часто перетекает просто в прокрастинацию. Ну и конечно важно показывать свои проекты кому-то, рассказывать про свои идеи, чтобы получать фидбек.

Один из моих текущих проектов - AI news. @maximenko_o предложила делать короткие видео с новостями про эй ай, чтобы было всем понятно. Планировалось как еженедельные, но получается реже, с того момента мы сделали уже 4 выпуска, самое сложное оказалось монтаж - спасибо Оле за него

После долго перерыва мы сняли новый выпуск AI news youtu.be/9n_A_ZbVPyk В него вошли новости по генерации изображений и видео за последние несколько недель. Думаю теперь из-за карантина выпуски будут чаще
notion image

Если хочется начать читать пейперы, то нужно просто выбрать интересную для себя тему и начать с самых цитируемых. Но если все же хочется какой то методологии можно посмотреть годную лекцию от Нг, как читать статьи youtu.be/733m6qBH-jI

Какие пейперы читать. Раньше я следил в разных местах - редит, твиттер, еще несколько, но в итоге все сошлось к arxiv-sanity.com/top Просто, удобно. Обычно смотрю только раздел топ, но иногда бывает интересно в “хайп” - там сортировка по количеству ретвитов статьи(обычно мясо)

Еще очень крутой лайфхак - пытаться реализовывать статьи, если код уже есть, то подсматривать туда. Но понятно, это очень медленный способ. Другой попроще - писать краткое содержание статьи, хотя бы для себя.

Эффективнее конечно - писать в какой то чат, где другие смогут его прочитать. Тут куча плюсов - будешь лучше стараться, другим тоже польза, можно обсудить статью или понять, что ты не так понял.

Для этого отлично подходит канал в ods - #article_essence Туда почти каждый день пишут по обзору. Кстати, только что написал туда самари о последней прочитанной статье, которая позволяет переодевать людей. Если ты вдрууг еще не в одс, то быстрее вступай ods.ai

Сколько пейперов ты читаешь в неделю?

На этом мой дозор окончен. С вами были Евгений Кашин, подписывайтесь и пишите мне тут @digitman_ Это был прикольный опыт с твиттером, возможно теперь разгонюсь и у себя. Было полезно собрать отдельные мысли в кучу, посмотреть на мнения в голосовалках, попостить мемы. Метатред ->

Как видно по опросу, большинство выберет акции. Это и правда удобно(кроме того, что в сумме за год обычно и выгоднее) - если ты не собираешься менять компанию раньше чем через год, то это позволяет тебе не задумываться о накоплениях, ты как бы уже ИНВЕСТОР
План недели, даже немного совпало twitter.com/dsunderhood/st… Обо мне twitter.com/dsunderhood/st… Последние проекты twitter.com/dsunderhood/st… "Мои" стартапы twitter.com/dsunderhood/st… и - стартапов twitter.com/dsunderhood/st… О деньгах twitter.com/dsunderhood/st… Про акции twitter.com/dsunderhood/st…

Модел бейс рл - это когда агент не пробует случайные действия в тупую, а имеет какие то знания о мире(даже если выученные в процессе) и действует чуть более осмысленно(планирует). Например, с помощью модел бейс рл можно научить руку перебирать шары всего за 2 часа(оч быстро) https://t.co/I5fCX1Ntk2
Про Яндекс twitter.com/dsunderhood/st… О ганах twitter.com/dsunderhood/st… Как "войти" в ганы twitter.com/dsunderhood/st… О статье моей команды twitter.com/dsunderhood/st… Лайфхаки при написании статей twitter.com/dsunderhood/st… О рл twitter.com/dsunderhood/st… Модел бейс рл twitter.com/dsunderhood/st…

Еще хотел про петпроджекты, но тут уже до меня хорошо было рассказано про их пользу. Можно смотреть на это как на хобби, как на способ выделиться среди других при подаче на вакансию или даже как на начало будущего стартапа единорога.
Как "войти" в рл twitter.com/dsunderhood/st… Минусы рл twitter.com/dsunderhood/st… Пхд или индустрия twitter.com/dsunderhood/st… Консалтинг в дс twitter.com/dsunderhood/st… И еще twitter.com/dsunderhood/st… Пора ли менять работу twitter.com/dsunderhood/st… Петпроджекты twitter.com/dsunderhood/st…

Любимые мемы про дл, которые негде было использовать. Докидывайте своих https://t.co/JknfBf4Unm
AI news twitter.com/dsunderhood/st… О чтении пейперов twitter.com/dsunderhood/st… Походу рассказов было много тредов с мемами и мелкими кеками, большой тред с мемами twitter.com/dsunderhood/st… Ну и много опросов про все подряд

Пишите @tiulpin чтобы тоже поучавствовать в движухе и побыть автором недели. Это оказалось не так сложно, а главное весело. Это последний твит от @digitman_ , а теперь у всего, что я понаписал поменяется аватарка

Ссылки