Александр Николич

Александр Николич

Неделя
May 3, 2021 → May 9, 2021
Темы
Мемасики
Пет-проджекты
Стажировки
Парсинг

Архив недели

Понедельник


Всем привет! Меня зовут Александр и последний месяц занимаюсь креативным ии в Сбере (до этого работал в Сбере в другой структуре про нее не очень интересно рассказать и я не буду)). Мне 19 лет и я моя жизнь довольно интересная, я выигрывал Олимпиады в школе, но не подтвердили

В 2020 во время карантина мне стало скучно. Нет, не так. МНЕ СТАЛО ОЧЕНЬ СКУЧНО. Так я полез на хабр и стал топ 300 авторов в марте. Почитать мои безграмотные статьи можно тут:m.habr.com/ru/users/alexw… Мои безграмотные посты про то как все плохо в телеге:t.me/response1000000

Твиттера у меня можно сказать что нет(он пустой), но есть пет проект в твиттере @NeuralPushkin Кстати если хотите могу отдельно рассказать как его обучали и на чём.

План на неделю. Он пока примерный и скорее всего будет меняться по ситуации. План пока примерно такой: Как я в 18 попал на стажировку для 3 курс+ Как парсить открытые данные ? Нытье про то что люди подделывают результаты paper_ов Про ускорение скриптов и jit В реплаях прода

Как юзать коллаб по полной программе Про open source projects Heroku и все все все Почему хакатоны это так круто и как залететь

Расскажу немного про то что делал отдел в котором я работаю за последние время. генерация музыки на основе jukebox openai(слушать тут go.zvooq.com/birth) Biggan + CLIP от openai (ссылки на потыкать не будет, потом если захотите закину то что генерили)

Самое годное из генеративной дичи что я видел за последние время youtu.be/msG1I1nOIHg

Насколько мне известно тут так не особо принято, но так как сегодня выходной, a рассказывать o taming transformers мне немного лениво то я предлагаю устроить тред самых смешных картинок которые вы видели. Я начну
notion image

notion image

@dsunderhood pic.twitter.com/E7FCRNiHV2
Обожаю эту картинку twitter.com/henrynutz/stat…

I prefer to use scatter plot for losses to see the evolving distribution pic.twitter.com/fcevyyZe4o
Действительно классная идея twitter.com/zzznah/status/…

Вторник


Как и обещал пилю тред про стажировки в Сбере. Да, я знаю что тут в основном синьоры помидоры, но давайте притворимся что он будет полезен. Не смотрите на ограничение на тема 3+ курс, оно не несёт смысла и вообще бесполезно. Если ты закончил хорошую школу и у тебя ⬇️

Был хороший курс линала+матана(типа на уровне первого курса провинциального мат_фака) то в целом этого достаточно чтобы начать проходить DL school mipt - мой любимый курс всем советую. У него сравнительно высокий порог входа и им действительно придётся заниматься, но он действ⬇️

Полезен и достаточно всеобъемлющ. Далее - ИАД вышки. Он лежит на hse.wiki и на гите - все легко гуглиться. С теорией разобрались, далее - необходимо тупо брутфорсить HRов. Я по натуре не люблю общаться с людьми, а особенно с девушками (звучит хикански, да)⬇️

По этому я долгое время (три собеса) перебирал разные стратегии общения чтобы проходить девочек Hrов со свистом и нормально доходить до технической части. Техническую часть я прошел на изи, пара вопросов по классическим: text2vec, classic ml, чуть питона. Все в целом ⬇️

А кстати важно вылезать резюме в latex_образном формате. Ещё советую перед подачей вылезать резюме за счёт ods resume mastering и startup never sleeps jobs

Данный тред не притендует на полноту, faq в чатах про стажировки обычно полнее.

🔥Тред #1

Среда


Тред про то как я парсил данные в пет проекты. неожиданно иногда нет смысла парсить в чистом виде - это касается книг. Есть смысл погуглить минут 15 адекватную .pdf/fb2/любой xml tree format версию и потом разобрать ее регулярками/чем угодно. ⬇️

парсить то что срут(ну типа чем замирают сети) пользователи стало не легальнос с 1 марта. ДАННАЯ ИНФОРМАЦИЯ ДЛЯ ОЗНАКОМЛЕНИЯ И НАУЧНО ИССЛЕДОВАТЕДЬСКОЙ ДЕЯТЕЛЬНОСТИ. Парсить дейтинг сервисы легко. Они не имеют почти никакой защиты и все довольно оперативно отдают ⬇️

В оригинальном плане тут могла бы быть ссылка на мою статью на хабре, но статья набрала -12 кармы(или хз чего) и я ее удалил чтобы совсем не убить профиль. Кстати там была классная шутка что для хабра акутльнее лайкать мужчин, а не женщин, но кажется шутка не зашла. ⬇️

Тикток, Инстаграм и все все все. Для них существуют pipy проекты по первой ссылке в Гугле. Их вполне хватит на то чтобы выкачать какую то дичь для курсовой/диплома. А вот дальше начинается боль - придёт думать о мульти прокси, клик симуляции и тд. Но в целом все решаемо ⬇️

Каких то супер инсайдов не будет, но кажется их и быть особо не может. А, единственное что у tinder api открытое и весит на фронте максимально открыто. Всё.

🔥Тред #2
Кстати есть такая классная консольная тулза - ffmpeg, с ее помощью можно осуществить простой монтаж даже в Google collab. Склеить файлы ffmpeg -f concat -safe 0 -i ./file -c copy in.mp4 Обрезать начало ffmpeg -ss 00:00:50 -i in.mp4 -c copy full_cut.mp4

Сжать качество для ютуба
ffmpeg -i full_cut.mp4 -c:v libx264 -preset slow -crf 18 -c:a copy -pix_fmt yuv420p full_cut_youtube.mp4 Ускорить в 4 разаffmpeg -itsscale 0.25 -i full_cut_youtube.mp4 -c copy full_cut_youtube_speedup.mp4

Выбросить лишние кадры
ffmpeg -i full_cut_youtube_speedup.mp4 -filter:v fps=30 full_cut_youtube_speedup_drop.mp4 Добавить зацикленное аудиоffmpeg -i full.mp4 -stream_loop -1 -i bensound-acousticbreeze.mp3 -shortest -map 0:v:0 -map 1:a:0 -y full_speed_audio.mp4

Не могу не рассказать про своих друзей и дружественные мне каналы. Это Даня и он serial Russian hacker. И нет, он не взломал Пентагон. Он выиграл кучу хакатонов и сделал много годных сервисов. А ещё у него есть очень крутой канал с таким контентом. t.me/danokhlopkov
notion image

Четверг


@dsunderhood Чтобы не собирать сложные цепочки фильтров вручную, рекомендую использовать github.com/kkroening/ffmp… Можно даже вкорячить применялку нейросетей к кадрам через pipe'ы.
Да, классная штука twitter.com/Brotherofken/s…

Кстати классная дистиллированная версия biggan github.com/terarachang/AC…

Есть такая крутая тема для питона JIT компиляция. Суть ее в том что то мы интерпретировали питоном в байткод можно собрать в машинный код и в свою очередь дополнительными инструкциями до скорости сравнимой с c++. Мне jit помог с попиксельной обработке изображений

И матричных операциях. А вот моя любимая статья про jit в питоне m.habr.com/ru/post/484136/

Наконец-то доел кулич и пошел гулять по берегу Яузы. Погода стояла прекрасная, но я не мог заснуть из последних сил; мне снилась старая крепость: справа возвышался замок с зубцами на стенах — слева церковь Петра Великого (так называлась она в то время) со сводом наподобие часовни pic.twitter.com/ZePXqZ2MmJ
Люблю свой акт проект twitter.com/NeuralPushkin/…

Суббота


Кстати это один из лучших и самых подробных гацдов по деплою ваших микросервисов на хероку. Предвосхищу вопрос - ocr tesseract нормально заводиться как и многие простые модельки towardsdatascience.com/deploy-python-…

Кстати одна из самых полезных инвестиций - подписка на медиум. Серьезно. За 5$ вы получаете все толковые гайды

Кстати я давно думаю о том чтобы собирать collab ноутбуки с простыми апишками, тгботами и тд.

Ну частично для того чтобы пиарить свой блог, не без этого. Частично потому что когда пишешь что то для людей у меня срабатывает такая штука я должен разобраться глубже чем если я просто использую.

Кстати я в январе писал такую интересную штуку - paper summary. Принципиально это bert summarize даже не тюненый. Планирую в июне заменить на тюненный T5, а датасет взять в виде пары arxiv paper-arxiv paper preview. Тыкать можно тут: github.com/AlexWortega/Co…

Кстати внутри есть простая графовая моделька. Я планировал прикрутить к ней Sbert embeddings и на основе их сделать QA систему. Ну типа чуть умнее поиска по статье

Воскресенье


@dsunderhood Если открывать статьи в инкогнито моде в хроме, то гайды можно получить бесплатно
Ладно, это твиттер и без срачей тут кажется не принято. Постить бмв я не буду, но вот про этику немного подушню. 1) Для любого человека работающего в индустрии 5$ это кофе. Да, это три кофе в Макдональдс, но тем не менее это какие то малоощутимые деньги. ⬇️ twitter.com/TEarth42/statu…

А вы никогда не задумывались сколько стоит время сэкономленное тобой за счёт этой статьи? А если было найдено оптимальное решение то и время клиентов? Нет? Может быть это стоит в разы больше чем 5 баксов в месяц? Опять же - платя эти деньги ты поддерживаешь ⬇️

Независимых авторов которые в будущем будут выпускать ещё более годные статьи, будет увеличиваться конкуренция и тем самым мы как пользователи получим ещё более годный контент. У нас не так много действительно крутых площадок: Reddit, medium, git(в меньшей степени). ⬇️

Для СНГ ещё можно назвать хабр , но он скорее мертв(переводы/нытье/новости). И вы разработчики действительно не понимаете почему надо платить? Давайте ещё ide шки пиратить, чо бы нет? Я не понимаю такого подхода - это кормит вас, вложите чуть чуть денег чтобы людям которые это ⬇️

делают тоже было на что поесть. Почему то когда надо платить за музыку/кино вопросов нет.

🔥Тред #3
Большое всем спасибо за эту неделю и за возможность вести этот блог. Было приятно пообщаться. Мой канал для нытья в телеге: t.me/response1000000 Мой арт проект Нейро Пушкин: twitter.com/NeuralPushkin

Ссылки