Архив недели @anna_schatt
Понедельник
Всем привет 👋 Это Анна Яшина (@anna_schatt). Эту неделю я тут у штурвала. Я DS в финском стартапе @iBamomas, который занимается диджитализацией индустриальных батарей 🔋. До этого работала в Biocad и училась в Питерской Вышке.
План такой:
сегодня расскажу про свое (не)профильное образование
во вторник чуть больше про ВШЭ и свою любовь к сетевым данным
в среду про одс и карьеру
в четверг про батарейки и инструменты работы с временными рядами
в пятницу отвечаю на вопросы
на выходных расскажу про учебу и работу в Финляндии и рабочую культуру
иногда буду накидывать рандомные кулстори
Мне очень приятно и волнительно оказаться в этой роли! Постараюсь поделиться своим скромным опытом так, чтоб вам было интересно и возможно полезно. Поехали!
Я выросла в Таганроге, ходила в ближайшую к дому школу и к 11-му классу думала, что в лучшем случае буду скучные бумажки в офисе перекладывать
Вместо уроков информатики, например, у нас играли с учителем в cs:go. Из школы я вышла с минимальными компьютерными навыками и смутными представлениями о том, что еще нескучного можно делать за компом, кроме как играть в симс и сидеть в соцсетях
Я совсем не представляла, чем хочу заниматься по жизни, мне было примерно все жутко интересно, от архитектуры до химии. Я сама училась рисовать и играть на гитаре, а еще мечтала переехать в Питер
Я никак не могла определиться, какие предметы сдавать, и в итоге решали родители на правах спонсоров моих репетиторов. С выбранным набором предметов мне был уготован путь в гуманитарные или социальные науки
Экзамены сдала хорошо, но при каком-то невероятном стечении обстоятельств, я оказалась в Воронежском ВГУ на платной программе по международной экономике
Не в обиду ВГУ, но я довольно быстро поняла, что ловить там нечего и атмосфера совсем не стимулирует к развитию, поэтому я твердо решила оттуда свалить, даже если в никуда. План был доучиться первый курс и забрать документы летом, чтобы перепоступить с теми же экзаменами
И это было одним из лучших решений в жизни! Можно поспорить, что год был потерян, но это совсем не так. Как минимум в ВГУ был хороший курс матана и продвинутого экселя, а еще я поняла, чего мне хочется и не хочется от учебы в университете
Считаю, что сменить нелюбимый университет/программу/направление никогда не поздно, даже на последнем курсе и не в первый раз. Главное не останавливаться в поиске места, где будет интересно и комфортно развиваться
Кулстори о том, как я забирала документы из ВГУ, когда меня уже ждали в ВШЭ на бюджетное место. Лето, сотрудники универа в отпусках, а мне нужно собрать обходной лист - то еще челлендж, но выполнимый
С обходным листом я пришла к проректору разрывать договор, но оказалось, что т.к. мой папа тоже его подписывал, без его доверенности сама я расторгнуть договор не могу. Папа в Таганроге, я в Воронеже, на следующий день вечером надо выезжать в Питер
Проректор еще попытался убедить меня, что никому я в этом Питере не нужна и вообще в Вышке слишком сложно учиться и я не вывезу, раз не вывезла учиться в ВГУ. Такое хамство мне только прибавило уверенности и сил
И ночь этого же дня я ловила автобус на трассе за Воронежем, который вез доверенность моего папы. Было стремно и оказалось, что бесполезно, потому что проректор даже не взглянул на доверенность утром и молча отдал мне документы
В Питерскую Вышку на социологию я поступила почти случайно, за год до этого я даже не знала, что Вышка есть в Питере, а в московской были заоблачные проходные баллы. А еще я не рассматривала социологию как вариант, пока не увидела описание программы именно в питерском кампусе
Обещали научить количественной социологии и современной социологической теории. В учебном плане я увидела значительное количество курсов по статистике и теории вероятностей, что сломало мои шаблонные представления о социологии
Перспективы после окончания такой программы показались довольно разнообразными, что офигенно мне подходило, потому что к тому моменту я все еще не представляла, кем хочу быть
Аналогичная программа в СПБГУ, наоборот, соответствовала моим представлениям и делала упор на классическую социологию, но туда я тоже на всякий случай подалась. Когда пришло время выбирать, я ни секунды не сомневалась
Кстати, совсем недавно тут уже был спикер с соцфака Питерской Вышки. Мы с @silyutinaolga учились в одно время, но с разницей в год
тред о том, как социологов учили программировать на R
На первом курсе соцфака нам предложили вкатиться в программирование на R в факультативном порядке и, так как я пришла в вышку с боевым настроем, сразу записалась, хоть и было страшно совсем ничего не понять
Курс тогда вел @dotsbyname и студенты-второкурсники, которые самые первые прошли факультатив и уже успели сделать свои мини-ресечи на основе данных на прикольные темы
Например, @ThisIsNotDasha изучала музыку и жанры (кажется еще финфики) и я к ней позже присоединилась, а @rediskazdes делал рисеч по русскому рэпу
На первом занятии нас научили подключаться к удаленному серверу через ssh и через PuTTY, знаете такую штуку?
На следующих занятиях мы делали ctrl+enter, прогоняя готовый код в RStudio и пытались понять, как он работает. Изредка дописывали что-то очень простое
В конце курса нас распределили по мини-проектам под руководством второкурсников, раздали датасеты и сказали пилить. Оказалось, что начать пилить более-менее самостоятельно тяжело, но это самый быстрый способ научиться
У меня был датасет частично собранный с lastfm - концерты, города, группы и набор жанров. В итоге я презентовала карты мира, на которых были соединены города с концертами различных жанров музыки
Помню, что для хардкорных жанров особенно выделялся кластер скандинавских стран. Никаких открытий я, конечно, не сделала, но хотя бы чуть-чуть научилась работать с гео- и сетевыми данными
В следующем году уже наш поток помогал первокурсникам плавно в̶о̶й̶т̶и̶ ̶в̶ ̶а̶й̶т̶и̶ научиться программировать с нуля. Тут скажу, что помогая другим, неизбежно прокачиваешь скиллы в процессе, рекомендую
Вторник
Сегодня у нас по плану сети (они же графы), не нейронки :) Расскажу, как почти 5 лет в универе писала все значимые работы про социальные графы, и что из этого вышло
Начну с кулстори. Летом 2016-го @Ierkahh, @ictshnica и я собрались на летнюю школу по лонгитюдным сетям от международной лаборатории прикладного сетевого анализа в Москве (anr.hse.ru)
Так вот, нам в Москве надо было где-то остановиться на 4 дня, а денег почти не было. Мы сначала остановились у какого-то странного чувака в Юж. Бутово, которого нашли на couchsurfing (бесплатно), но вскоре там стало слишком крипово и мы сняли самую дешевую квартиру в Марьино
Квартира максимум на двоих гостей, а нас трое, но мы решили, что поместимся. Пока двоих из нас заселяла хозяйка, третья пряталась за домом, в ожидании, когда она свалит
Оказалось, что места там на полтора человека, не больше. Был один маленький диван, который раскладывался книжкой и мы втроем на нем умещались только поперек, закинув ноги на табуретки
В итоге летняя школа прошла мимо меня потому, что я постоянно клевала носом. Но позже я все равно разобралась с лонгитюдными сетями и писала все свои курсовые и дипломы про методологию работы с ними, о чем расскажу в следующем треде, stay tuned
Часть большого треда про сети (1/2). Сначала немного терминологии. Социальная сеть состоит из людей (узлы) и их взаимоотношений (связи). Связи могут быть, как направленные (А дружит вс Б), так и ненаправленные (А и Б партнеры по бизнесу).
Социологи могут собирать сетевые данные используя специальные опросники или же могут парсить данные из электронных ресурсов, таких как ВК или Тви или любые тексты, например, новостные статьи
Я в основном работала с опросными сетевыми данными о взаимотношениях школьников
Со второго курса начались курсовые и надо было определяться с направлением. Свой первый курсач (на самом деле литобзор статей) я писала про террористические и другие подпольные сети потому, что они самые необычные в плане структуры из всех социальных сетей
При том, что террористические сети социальны, их структура оптимизируется под давлением внешних угроз (быть обнаруженными, потеря одного из агентов), и поэтому они совершенно не похожи на те же сети дружбы или списывания
Рисеч вокруг таких сетей сконцентрирован на алгоритмах определения слабых мест в структуре, при воздействии на которые нарушаются информационные потоки и сеть теряет устойчивость
Все мои следующие работы были про статистические методы моделирования лонгитюдных социальных сетей
Лонгитюдные социальные сети - это когда одних и тех же людей опрашивают или наблюдают несколько раз, например раз в год три года подряд. Таких образом собирают данные о динамике взаимотоношений внутри группы людей, например, дружбы или списывания дз
Для анализа таких сетей есть специальные пакеты на R (например, RSiena), о чем и была летняя школа из моей кулстори
Если хочется вкатиться в (не только социальный) сетевой анализ, рекомендую книжку в открытом доступе networksciencebook.com
А еще мне помог простой советский учебник по теории графов, который я случайно нашла в библиотеке
Если вы интересуетесь ML на графах, то вот этот канал в телеге будет супер полезен t.me/graphML
Часть большого треда про сети (2/2)
Однажды моя научница Иванюшина ВА скинула мне неработающий скрипт на R, в котором содержался алгоритм множественного восстановления пропусков в сетевых лонгитюдных данных
Проблема, котрую решает алгоритм множественного восстановления: сетевые лонг. данные часто полны пропусков - т.к. опросы идут волнами несколько лет, очень сложно несколько раз подряд найти и опросить одно и того же человека
а удалять неполные наблюдения из сетевых данных - очень дорого. Теряется не только информация о респонденте, который пропустил одну или несколько волн, но и его входящие связи от других респондентов (которые назвали его другом) тоже пропадают, и это сильно искажает сетевые данные
Задача - восстановить/предсказать ответы (=исходящие связи) респондента так, как если бы он был опрошен. Для этого используются данные предыдущих опросов этого респондента, структурные метрики окружающей его сети и любые другие доступные фичи
При этом, нам нужно быть уверенными, что то, что мы предсказываем имеет структурный смысл. Поэтому мы восстанавливаем сеть много-много раз при помощи стохастических симуляций динамики сети от волны к волне, и следим, чтоб сетевые метрики были в пределах доверительного интервала
Так вот, я пытаюсь починить неработающий скрипт для множественного восстановления, ничего не получается, а я планирую эту штуку использовать в бакалаврском дипломной работе. Пришлось написать автору скрипта и он мне помог разобраться
Оказалось, что этот метод часть докторской диссертации R.W.Krause из University of Groninger, которую он писал под руководством Tom Snjiders, создателя пакета RSiena
Через год я поехала в Гронинген на месяц, чтобы поработать над курсовой уже в магистратуре. Тогда я помогла имплементировать использование еще и табличных опросных данных для множественного восстановления сетей
То есть, если в исследовании использовался опросник из двух частей: сетевой и, например, поведенческой, то поведенческие данные тоже учитывались бы при восстановлении сетей
Если вам когда-то понадобиться восстановить лонгитюдные сети 😅, то вам поможет этот скрипт stats.ox.ac.uk/~snijders/sien…
Магистерский диплом был тоже про множественное восстановление, но защищала я его уже по направлению "прикладная математика и информатика"
Сегодня мы поговорили про сети и с чем их едят 🍴 еще хотела рассказать, как учеба в вышке помогла мне определиться с карьерой, но не успеваю, поэтому об этом завтра. А пока подведу итог второго дня:
Часть большого треда про сети (1/2). Сначала немного терминологии. Социальная сеть состоит из людей (узлы) и их взаимоотношений (связи). Связи могут быть, как направленные (А дружит вс Б), так и ненаправленные (А и Б партнеры по бизнесу).
Кулстори про летнюю школу: twitter.com/dsunderhood/st…
Тред про сети раз: twitter.com/dsunderhood/st…
Если хочется вкатиться в (не только социальный) сетевой анализ, рекомендую книжку в открытом доступе networksciencebook.com
Тред про сети два: twitter.com/dsunderhood/st…
Что посмотреть/почитать: twitter.com/dsunderhood/st…
Среда
Среда! Сегодня расскажу как делала первые шаги в сторону дс, про карьеру и ODS
Всегда хотела провести такой опрос 🤓
Вечером расскажу почему
Свое текущее место работы я нашел/нашла:
Тред про курсы и активности как в универе, так и во вне, которые повлияли на мой выбор карьеры
Начну говорить о 1й теме на своем примере. Училась я не на классического социолога. У нас было введение в программирование на R, большая любовь к количественным исследованиям, много статистики, был даже теорвер и главное - майнор Data Science (по выбору). С него все и началось
Недавно Оля @silyutinaolga уже рассказывала про майнор по анализу данных в Питерской Вышке, вот тут можно почитать:
twitter.com/dsunderhood/st…
Я тоже через него прошла как студентка и ТА. Соглашусь с Олей, что если есть возможность побыть ТА, то это очень крутой и полезный опыт
Еще один классный вариант для студента - волонтерство на конференциях и летних школах по интересующей тематике. Волонтеры помогают в организации мерча, встрече спикеров в аэропорту, на регистрации, а взамен получают возможность бесплатно послушать топовых спикеров
И конечно же нетворкинг, если не стесняться подходить к незнакомым людям с глупыми вопросами ;)
Моя первая конференция в качестве волонтера была летом после первого курса, и это RuSSIR 2015 romip.ru/russir2015/
Мне тогда удалось впервые послушать доклады людей из яндекса и гугла, а потом познакомиться с ними лично и добавиться в соц. сетях
Кстати, когда-то RuSSIR проходил в моем родном городе Таганроге romip.ru/russir2008/
После руссира я волонтерила хотя бы раз в год на конфах про AI, ML и NLP, это безусловно помогло сформировать представления о том, чем можно заниматься в области анализа данных
надеюсь, что конфы, хакатоны и митапы вернутся в оффлайн формат в ближайшем будущем, а то как-то грустно
Всегда хотела провести такой опрос 🤓 Вечером расскажу почему Свое текущее место работы я нашел/нашла:
По текущим результатам опроса можно сказать, что если кто-то и подсказал, куда податься на вакансию, то этот кто-то скорее знакомый, чем друг
twitter.com/dsunderhood/st…
Тут хочется привести статью социолога Грановеттера про силу слабых связей, 1973 год jstor.org/stable/2776392…
Грановеттер изучал, как люди устраиваются на работу и пришел к выводу, что чаще всего подходящее место работы находится через знакомых (слабые связи), а не через близких друзей (сильные связи)
Объясняется это тем, что знакомые менее похожи на нас и имеют круг общения отличный от нашего, нежели близкие друзья. Соответственно, от знакомых мы получаем более разнообразную информацию, к которой иначе не имели бы доступа
Поэтому слабые связи, которыми вы обрастаете на конфах, митапах и хакатонах так сильны и ценны
Тред-кулстори о одс, дата фестах и дата завтраках.
Летом 2016го я увидела анонс третьего Data Fest'а на хабре, который проходил в Яндексе
Как раз закончился первый год майнора по анализу данных и я подумала, что было бы супер интересно послушать, как то, что мы изучаем, применяется в индустрии. Я загорелась туда попасть и предложила @Ierkahh и @ictshnica подать заявки вместе
В заявке нужно было рассказать, кто мы такие и чем занимаемся. И тут я приуныла потому, что была уверена, что студенткам-социологам инвайты не пришлют
Нас и не пригласили бы, если б не вспонили, что у @Ierkahh есть знакомый из Яндекса @senya_ashuha. Мы ему написали, когда до феста оставались считанные дни и нам моментально пришли инвайты. Совпадение? Не думаю
Датафест проходил в те же дни, что и майнор, но @AVSirotkin сказал, что ради такой поездки можно и прогулять его пары
Мы зачем-то везли самодельный торт на датафест, но крем на основе сметаны прокис за ночь в поезде 😂 кажется, его все равно съели
Датафест был супер! Я помню, что первый доклад, который мы послушали, был про нейрокозла и народ толпился в проходах в аудиторию
Еще была дискуссия "R или Python" и я тогда поняла, что надо бы учить питон на всякий случай. По возвращению с датафеста я начала специализацию от МФТИ и Яндекса и стала ходить на пары по питону у магистров, которые тогда вел @stachek66
Кто-то еще успел добавить нас в слак одс, там тогда было ~2.5k участников. Кажется, оттуда мы узнали про дата завтраки в Питере по четвергам и начали активно на них заглядывать. Теперь они выглядели вот так:
Дата завтраки это тема, советую и рекомендую к посещению после пандемии, а пока можно присоединиться к дата завтракам в клабхаусе, которые проходят там каждый день в 9.30 (организует @ ermakovpetr)
Сегодня мы поговорили про силу слабых связей и одс. Про все, что не успеваю рассказать, расскажу в пятницу, где у нас свободная программа
Завтра про временные ряды и 🔋🔋🔋
А пока итоги дня:
Тред-кулстори о одс, дата фестах и дата завтраках. Летом 2016го я увидела анонс третьего Data Fest'а на хабре, который проходил в Яндексе
опрос про работу: twitter.com/dsunderhood/st…
волонтерства тред: twitter.com/dsunderhood/st…
Грановеттер и сила связей:
twitter.com/dsunderhood/st…
Тред про одс:
twitter.com/dsunderhood/st…
Четверг
Привет! Сегодня по плану рассказываю, чем занимаюсь на работе в 🇫🇮 стартапе про батарейки, какие инструменты использую
Наш стартап специализируется на индустриальных аккумуляторных батареях (АКБ) в b2b секторе. Это, например, батарейки в локомотивах, грузоподъемниках в логистических центрах, гольф-картах и лодках и т.д.
Дальше расскажу на примере грузоподъемников. Батарея, как правило, состоит из нескольких аккумуляторов соединенных последовательно или параллельно. Выглядят они вот так:
На один грузоподъемник иногда приходится две сменные батареи. Когда грузоподъемников много в одном флите (парке), возникает задача оптимизации ротации батарей - определенное количество батарей должно быть заряжено и готовыми к использованию к началу каждой смены
Так же, если мы замечаем, что какие-то батареи стоят без дела, возникает простор для сокращения флита, что классно для бизнеса потому, что батарейка стоит несколько тысяч евро
Еще одна задача - своевременное обслуживание и предиктивная аналитика. В батарейки грузоподъемников нужно периодически заливать электролит, иначе она быстро придет в негодность, а еще батарейка не должна ломаться посреди смены
В принципе почти все эти задачи можно решить, наняв побольше техобслуживающего персонала, который будет регулярно снимать показатели с батарей и проводить контрольные тесты. Но это дорого и неудобно, а оборудование для тестов тоже стоит очень дорого
Основа нашего стартапа это патентованные IoT-датчики, которые устанавливаются на батареи и в реальном времени снимают показатели, такие как ток, напряжение, температура и уровень электролита, и отправляет их в облако. Вот так они выглядят:
В облаке происходит обработка данных и дается оценка уровня заряда (SoC) и здоровья батарей (SoH), детектятся аномалии, а результаты выводятся в приложение для аналитики, которое мы с нуля пилили полгода и недавно выкатили в прод
В приложении есть, например, страница с текущими и недавними проблемами батарей, чтобы было удобно планировать техобслуживание и трекать, что батарейку не абъюзят при использовании
Есть еще фича, которая неожиданно для меня оказалась очень полезной для клиентов. Оказывается, сам по себе электронный учет всего - истории батареи и флита, поломок и ремонта - сильно упрощает жизнь
@dsunderhood Напиши, какой размер команды
Нас сейчас 5 человек, из которых два фулл-стака и один дата саентист twitter.com/poebist/status…
до нового года с нам был еще один дс, но он ушел в финскую армию
Идея цифровизации батарей идеально вписывается в зеленую инициативу Европейской комиссии в рамках достижения климатический нейтральности к 2050 году
ec.europa.eu/commission/pre…
В перспективе мы открыты к сотрудничеству с компаниями, которые производят, регенерируют и перерабатывают батарейки
Немного про некорректное использование батареек. Как продлить батарейке жизнь?
Скорее всего про индустриальные АКБ вам будет не интересно слушать, но есть универсальные советы, которые подойдут и для смартфонов
Заряжать только родным зарядником
Не использовать, когда уровень ниже 20%
Быстрая зарядка это, конечно, круто, но быструю деградацию при этом никто не отменял
для обладателей айфонов
- на сайте apple на странице адаптера есть список совместимых устройств
- чтобы не использовать быструю зарядку, когда не нужно, ставьте телефон на длинную зарядку в одно время, например, ночью
тогда сработает оптимизация и режим быстрой зарядки в это время включаться не будет
уровень заряда, конечно же
@dsunderhood Вроде ж бы плохо держать телефон на зарядке, когда он уже зарядился. А если ставить на ночь, то так и будет
не знаю, как с андроидом, но ios умеет держать заряд на 80% пока вы спите, и дозаряжать до 100% как раз к моменту пробуждения twitter.com/YevhenKolodko/…
@dsunderhood Говорят ещё, что нужно заряжать аккумулятор телефона только до 80%. Есть в этом смысл?
это правда, что именно литий-ионные батарейки лучше держать в пределах 40-80%, но как по мне, это слишком неудобно для пользователя. "Умная" ночная зарядка в плане удобства и деградации лучше короткой быстрой подзарядки даже до 80%
twitter.com/extremesaro/st…
Тред про временные ряды и инструменты
Сырые данные, которые приходят с датчиков - это временные ряды со своими особенностями. У них не может быть сезонности (за исключением температуры) и трендов, и задача прогнозирования к ним не применима
Мои основные задачи на сырых данных это определение SoC и SoH и детекция аномалий. При этом SoC вычисляется чисто математической моделью, а с SoH и аномалиями уже поинтересней
Все, что нужно для anomaly detection я нашла в пакете ADTK (arundo-adtk.readthedocs-hosted.com/en/stable/)
Правда, некоторые типы аномалий легко задетектить и без использования специальных пакетов простыми функциями из pandas
Для одного из алгоритмов SoH (их у нас несколько) мне понадобилось автоматизировать поиск определенного паттерна в измерениях напряжения. И тут я обнаружила один довольно простой, но при этом очень мощный инструмент
Называется matrix profile. Алгоритмы на основе этой штуки решают почти любые задачи на временных рядах - от сегментации до кластеризации. Но самое классное, что matrix profile супер быстро считается, отлично параллелится и скейлится на большие датасеты
есть имплементации для GPU
подробная презентация: cs.ucr.edu/~eamonn/Matrix…
пакет на питоне: github.com/target/matrixp…
еще: github.com/TDAmeritrade/s…
на R: github.com/matrix-profile…
На всякий случай. Для предсказания временных рядов ничего лучше prophet, кажется, еще не придумали
facebook.github.io/prophet/docs/q…
Немного про некорректное использование батареек. Как продлить батарейке жизнь? Скорее всего про индустриальные АКБ вам будет не интересно слушать, но есть универсальные советы, которые подойдут и для смартфонов
На сегодня все! А завтра день без темы, буду постить, что в голову придет и отвечать на вопросы
Подведу итог:
про стартап на батарейках: twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
неккоретное использование батарей: twitter.com/dsunderhood/st…
Тред про временные ряды и инструменты Сырые данные, которые приходят с датчиков - это временные ряды со своими особенностями. У них не может быть сезонности (за исключением температуры) и трендов, и задача прогнозирования к ним не применима
про временные ряды и инструменты:
twitter.com/dsunderhood/st…
@dsunderhood Писал в своё время с нуля систему для распознавания аномалий и задание правил на временных рядах. В итоге огромный успех и экономия порядка 7-9 миллионов евро в год на outage detection. m.habr.com/en/post/352980/
Отличный кейс twitter.com/atavgen/status…
Пятница
@dsunderhood А что такое SoС и SoH напомните плс?
SoC - уровень заряда, SoH - уровень здоровья батареи twitter.com/pogrebnyake/st…
Пятница!
Сегодня свободный день, я буду рада вашим вопросам и сама что-нибудь рассказу, из того, что не успела
После социологического бака у меня получилось поступить на магистерскую про анализ больших данных, первую ds-программу в ВШЭ СПб. В это же время я начала работать аналитиком данных в Biocad full-time. Поэтому здесь будет тред про совмещение учебы и работы
В Вышке теперь есть маги, где в описании прямым текстом написано, что совмещать с работой не получится. Расписание моей маги позволяло студентам работать полный рабочий день, чем многие и воспользовались. Пары были только вечером и учебная нагрузка не зашкаливала
Пары вечером - отличный повод не задерживаться на работе. Обычно, когда я уходила ровно в 6, никто еще даже не собирался. При этом я все равно часто опаздывала из-за того, что пользовалась общественных транспортом в час пик
Время на дорогу в день - один из факторов, который нужно учитывать. В день на поезди на общественном транспорте при таком расписании у меня уходило ~3 часа. С учетом полного рабочего дня и пар, времени на жизнь не остается совсем, а выходные уходят на домашку
Конечно же, есть и плюсы совмещения. Иногда действительно получается применить только что полученные знания в работе, у меня был такой кейс
И все же считаю, что если есть возможность спокойно поучиться в маге, то лучше ей воспользоваться и больше времени уделить учебе. Лучше постараться найти стажировку на лето и ходить на митапы, заниматься нетворкингом
В моем случае такой возможности не было. Я понимала, что мне нужен опыт работы чтобы повысить свои шансы найти работу в Финляндии
@dsunderhood Аня, не пробовали для своих задач использовать Transformer for TS forecasting? github.com/maxjcohen/tran…
Я изначально загорелась что-нибудь предиктить просто потому, что хотела научиться. Пробовала lstm и prophet, на Transformer тоже смотрела, но мы тогда поняли, что у нас нет бизнес задач, которые решались бы прогнозированием twitter.com/tez_romach/sta…
сейчас допиливаю оптимизацию флита, планирую предсказывать потребность в использовании батарей по часам, Transformer как раз попробую
Тред про базу данных на графах
Во время работы в Биокаде я научилась работать с neo4j - это бд, в которой все данные хранятся как узлы (nodes), связи (edges) и атрибуты. Узлы и связи могут иметь неограниченное количество атрибутов. Например, сеть российских троллей в Твиттере:
Тред про базу данных на графах
Во время работы в Биокаде я научилась работать с neo4j - это бд, в которой все данные хранятся как узлы (nodes), связи (edges) и атрибуты. Узлы и связи могут иметь неограниченное количество атрибутов. Например, сеть российских троллей в Твиттере:
На картинке выше показан мета-граф, по сути схема бд. А вот результат запроса твитов, в которых упоминается хотя бы один пользователь и хештег. Оранжевые узлы это твиты, красный - пользователь и бежевые - хештеги. Цвета сущностей соответствуют цветам на мета-графе
Язык запросов к neo4j называется cypher, но мы называли его "кефир"
Если интересно, сеть троллей можно потыкать в песочнице, там есть примеры готовых запросов на кефире neo4j.com/sandbox/
На cypher с расширениями имплементирована куча классических алгоритмов и метрик на графах. А еще я не пробовала, но говорят, что на кефире можно делать полноценный ml на графах
Пример крутого knowledge graph, потыкать можно тут neo4j.het.io/browser/
Попробуйте запрос:
MATCH (s:Symptom)<-[r]-(d:Disease) WHERE s.name = 'Cough' AND NOT d.name CONTAINS 'cancer' RETURN s, r, d
Как построить knowledge graph with neo4j: neo4j.com/blog/building-…
@dsunderhood Было про прошлое и настоящее, а что с будущим - какие технологии/языки/фреймворки интересуют для изучения, куда профессионально хочешь развиваться?
Мне пока интересно развиваться в своем стартапе, я вижу непаханое поле ds-задач. В частности, я планирую дотянуться до данных использования li-ion батарей и имплементировать нейронки из статей для предсказания поломок twitter.com/dstsimokha/sta…
По li-ion гораздо больше публикаций с применением ml, будет интересно. Помимо батареек, graph ml мне кажется очень перспективным направлением. Возможно, буду развиваться в этом направлении тоже. Но вообще, сложно загадывать. Я не представляла, что буду делать ds на батарейках
@dsunderhood Синдром самозванца. Мнения?)
Разрушительная хрень. Стоит походить к психологу, чтобы от него избавиться 🤷♀️ twitter.com/YevhenKolodko/…
@dsunderhood как думаешь, стоит полностью переходить на cloud вычисления даже для прототипирования нейронок? и какой машиной для работы пользуешься (мак/пк с gpu)?
Полностью все делать в облаке будет очень дорого, если намерения серьезные, то в перспективе дешевле будет собрать свою машинку с second-hand gpu twitter.com/kapitanmazza/s…
Если нужно научиться или что-то быстро потестить, то должно хватить google colab с их gpu и tpu. А, ну и бесплатные кредиты на 300$ на google cloud можно потратить, чтобы обучить разок что-то не очень большое
Для работы у меня mac air самой простой комплектации, потому что у нас сервак на aws под вычисления без gpu. Хорошо, что не я за него плачу ;)
Тред про базу данных на графах Во время работы в Биокаде я научилась работать с neo4j - это бд, в которой все данные хранятся как узлы (nodes), связи (edges) и атрибуты. Узлы и связи могут иметь неограниченное количество атрибутов. Например, сеть российских троллей в Твиттере: https://t.co/aP17j6aWoH
Пришло время подвести итоги дня 👇
Сегодня рассказала про совмещение маги и работы:
twitter.com/dsunderhood/st…
Про neo4j - графовую бд:
twitter.com/dsunderhood/st…
Полностью все делать в облаке будет очень дорого, если намерения серьезные, то в перспективе дешевле будет собрать свою машинку с second-hand gpu twitter.com/kapitanmazza/s…
Отвечала на вопросы:
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
На выходных расскажу про учебу и работу в Финляндии, где искать вакансии
Продолжу отвечать на ваши вопросы :)
Хороших выходных!
Суббота
Сегодня и завтра про мой опыт в Финляндии 🇫🇮
Тут расскажу про поиск работы twitter.com/une__miserable…
Надо сказать, что я живу в Тампере, поэтому у меня нет опыта поиска работы в Хельсинки. Есть ощущение, что вне столицы сложнее найти вакансии без требования финского. Ещё заметила, что примерно половина ds-вакансий имеет отношение к консалтингу
Поэтому большую часть отказов я получила из-за отсутствия финского и опыта в консалтинге. Искала и нашла работу на LinkedIn :) в местных финских сервисах вакансии в основном для финнов
Выйти на стартапы можно через ярмарки вакансий, которые периодически проводятся в университетах или организуются городом. На ярмарках много студентов и маленьких компаний
Тут вроде все знают, кто такие дата сатанисты и зачем они нужны :)
Даже если на ярмарки не получается ходить (их сейчас и нет, но будут когда-нибудь), то на сайте мероприятия можно найти список всех участников - готовый список емейлов куда закинуть резюме
Я успела поучиться семестр по обмену в Университете Тампере, а потом там же два месяца поработать как research assistant у профессора, который занимается сетевым анализом с уклоном на бизнес-структуры
Хочу поделиться штуками, которые мне показались интересными. Например, в здесь в университете ты почти полностью составляешь свой учебный план самостоятельно. Баки, магистранты и аспиранты могут ходит на одни и те же курсы одновременно
Программа, на которую ты поступила никак не ограничивает в выборе курсов, главное - набери минимум для диплома. Единственное ограничение - пререквизиты на некоторые курсы
Учебу финские студенты могут растянуть на года (некоторые так и делают ради дешевого студ жилья), а могут и впихнуть все в 2 года
Мой бывший коллега, который ушел в армию, успел закончить ДВА бака + ДВЕ маги за 2.5 года. Что? ДА
Сама бы не поверила, если бы не увидела своими глазами. Я кстати супервайзила один из его магистерских дипломов, он был про батарейки
Почти все магистранты, которые мне встречались, устраиваются работать в универе либо research assistant либо TA. И те и другие на полной ставке получают такую же зарплату как phd студент. Им также выделяют место в офисе и thinkpad для работы
По пятницам в универе почти никого нет, обязательных пар нет, в расписании семинары только для тех, кому нужна помощь ТА
Сейчас, конечно же, универ вообще закрыт и все на удаленке до 31го июля 🥴
Кстати про 🇫🇮 армию. Она обязательна для пацанов. НО каждые выходные солдатов отпускают домой, а государство на весь год берет на себя ренту твоей квартиры, какую бы ты не снимал. Девочки тоже могут через это пройти, если хотят
А еще, если ты с образованием, тебе дадут соответствующие обязанности. Чувак из армии недавно заходил в гости в офис, сказал что он примерно DS в армии и занимается
О, расскажите, есть ли области в data science, в которых бы вы не согласились работать ни за какие деньги по этическим соображениям?
Я бы не стала работать в компании, которая для предиката чего-либо использует физиогномику, например
Психотипирование в рекомендашках и предиктивной аналитике тоже в топку
Воскресенье
В продолжение темы поиска работы в Финляндии. Я упоминала ярмарки вакансий, через которые можно выйти на местные стартапы. Вот пример одного такого регулярного ивента. Они публикуют список всех компаний-участников yrityspaivat.com
Я была на таком оффлайн эвенте один раз, сейчас они проходят оффлайн. Конечно, такой способ найти работу подходит в основном для тех, кто уже находится в Финляндии. На всякий случай расскажу про варианты переезда тоже
На мой взгляд, если вы не крутой специалист уровня синьор, найти работодателя, который готов будет вас перевести из другой страны будет очень сложно. Тем более у стартапов часто есть ограничение на найм не резидентов Финляндии
Реалистичные способы переехать - это магистратура и phd. Стипендии в магистратуре не будет, но есть реальная возможность найти работу в университете. Зарплата phd студентов в финских университетах хорошая, при желании на нее можно нормально жить вдвоем
🎲 Рандомный тред 🎲
Все, что хотела упомянуть, но руки не дошли
Когда-то давно я сделала визуализацию (в gephi) сети бразильских девушек-эскортниц и их клиентов, до сих пор любуюсь. Датасет: networkrepository.com/escorts.php
Переезд в vscode с jupyter ноутбуков полтора года назад сильно улучшил мою жизнь. Вот сборник полезных расширений для работы с питоном dev.to/iashin/vscode-…
Работа в маленьком стартапе подразумевает разносторонние внезапные задачи. Так, в один момент мне понадобилось запилить простенький прототип нашего приложения. Если вдруг и вам придется, рекомендую figma.com
Супер юзер-френдли инструмент
В Тампере, где я сейчас живу, уже несколько лет строят и уже достраивают трамвайную сеть с нуля, просто потому что жители так решили, представляете? Каждое утро я хожу на работу мимо учебных совсем новых трамваев и мечтаю, чтобы и в российских городах такое тоже случалось
Меня тут поправили, что research assistant и TA никогда не работают на полной ставке, поэтому зарплата все же пониже
Я успела поучиться семестр по обмену в Университете Тампере, а потом там же два месяца поработать как research assistant у профессора, который занимается сетевым анализом с уклоном на бизнес-структуры
Вот и неделя пролетела! Начну подводить итоги :)
На выходных рассказала про поиск работы в Финляндии:
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
про учебу:
twitter.com/dsunderhood/st…
🎲 Рандомный тред 🎲 Все, что хотела упомянуть, но руки не дошли
спросила про этическую сторону работы в ds:
twitter.com/dsunderhood/st…
рандомный тред:
twitter.com/dsunderhood/st…
тред о том, как социологов учили программировать на R
Большой мета-тред по итогам недели 📜
Понедельник - про (не)профильный бекграунд:
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
twitter.com/dsunderhood/st…
На сегодня все! А завтра день без темы, буду постить, что в голову придет и отвечать на вопросы Подведу итог: про стартап на батарейках: twitter.com/dsunderhood/st… twitter.com/dsunderhood/st… twitter.com/dsunderhood/st… неккоретное использование батарей: twitter.com/dsunderhood/st…
Вторник - про сети:
twitter.com/dsunderhood/st…
Среда - про карьеру и одс:
twitter.com/dsunderhood/st…
Четверг - про стартап на батарейках + временные ряды:
twitter.com/dsunderhood/st…
Вот и неделя пролетела! Начну подводить итоги :) На выходных рассказала про поиск работы в Финляндии: twitter.com/dsunderhood/st… twitter.com/dsunderhood/st… про учебу: twitter.com/dsunderhood/st…
Пятница - день без темы:
twitter.com/dsunderhood/st…
Выходные - работа и учеба в Финляндии:
twitter.com/dsunderhood/st…
Топ-3 залайканных твита
Считаю, что сменить нелюбимый университет/программу/направление никогда не поздно, даже на последнем курсе и не в первый раз. Главное не останавливаться в поиске места, где будет интересно и комфортно развиваться
Тред про базу данных на графах Во время работы в Биокаде я научилась работать с neo4j - это бд, в которой все данные хранятся как узлы (nodes), связи (edges) и атрибуты. Узлы и связи могут иметь неограниченное количество атрибутов. Например, сеть российских троллей в Твиттере: https://t.co/aP17j6aWoH
Называется matrix profile. Алгоритмы на основе этой штуки решают почти любые задачи на временных рядах - от сегментации до кластеризации. Но самое классное, что matrix profile супер быстро считается, отлично параллелится и скейлится на большие датасеты https://t.co/9Q1C2xRUU8
Благодарю за вашу активность, отличные вопросы и реплаи 🤗 Спасибо!
Добавляйтесь в соцсетях
Twitter: @anna_schatt
Tg: @ schatt95
Clubhouse: @ iashina
LinkedIn: linkedin.com/in/anna-iashin…
Пока 👋
ааа есть еще инста
instagram.com/schatt483/