Архив недели
Понедельник
Всем привет!
Меня зовут Александр и последний месяц занимаюсь креативным ии в Сбере (до этого работал в Сбере в другой структуре про нее не очень интересно рассказать и я не буду)).
Мне 19 лет и я моя жизнь довольно интересная, я выигрывал Олимпиады в школе, но не подтвердили
В 2020 во время карантина мне стало скучно. Нет, не так. МНЕ СТАЛО ОЧЕНЬ СКУЧНО. Так я полез на хабр и стал топ 300 авторов в марте. Почитать мои безграмотные статьи можно тут:m.habr.com/ru/users/alexw…
Мои безграмотные посты про то как все плохо в телеге:t.me/response1000000
Твиттера у меня можно сказать что нет(он пустой), но есть пет проект в твиттере @NeuralPushkin
Кстати если хотите могу отдельно рассказать как его обучали и на чём.
План на неделю. Он пока примерный и скорее всего будет меняться по ситуации.
План пока примерно такой:
Как я в 18 попал на стажировку для 3 курс+
Как парсить открытые данные ?
Нытье про то что люди подделывают результаты paper_ов
Про ускорение скриптов и jit
В реплаях прода
Как юзать коллаб по полной программе
Про open source projects
Heroku и все все все
Почему хакатоны это так круто и как залететь
Расскажу немного про то что делал отдел в котором я работаю за последние время.
генерация музыки на основе
jukebox openai(слушать тут go.zvooq.com/birth)
Biggan + CLIP от openai (ссылки на потыкать не будет, потом если захотите закину то что генерили)
Самое годное из генеративной дичи что я видел за последние время
youtu.be/msG1I1nOIHg
Насколько мне известно тут так не особо принято, но так как сегодня выходной, a рассказывать o taming transformers мне немного лениво то я предлагаю устроить тред самых смешных картинок которые вы видели. Я начну
@dsunderhood pic.twitter.com/E7FCRNiHV2
Обожаю эту картинку twitter.com/henrynutz/stat…
I prefer to use scatter plot for losses to see the evolving distribution pic.twitter.com/fcevyyZe4o
Действительно классная идея twitter.com/zzznah/status/…
Вторник
Как и обещал пилю тред про стажировки в Сбере. Да, я знаю что тут в основном синьоры помидоры, но давайте притворимся что он будет полезен.
Не смотрите на ограничение на тема 3+ курс, оно не несёт смысла и вообще бесполезно. Если ты закончил хорошую школу и у тебя ⬇️
Был хороший курс линала+матана(типа на уровне первого курса провинциального мат_фака) то в целом этого достаточно чтобы начать проходить DL school mipt - мой любимый курс всем советую. У него сравнительно высокий порог входа и им действительно придётся заниматься, но он действ⬇️
Полезен и достаточно всеобъемлющ. Далее - ИАД вышки. Он лежит на hse.wiki и на гите - все легко гуглиться.
С теорией разобрались, далее - необходимо тупо брутфорсить HRов. Я по натуре не люблю общаться с людьми, а особенно с девушками (звучит хикански, да)⬇️
По этому я долгое время (три собеса) перебирал разные стратегии общения чтобы проходить девочек Hrов со свистом и нормально доходить до технической части. Техническую часть я прошел на изи, пара вопросов по классическим: text2vec, classic ml, чуть питона. Все в целом ⬇️
А кстати важно вылезать резюме в latex_образном формате. Ещё советую перед подачей вылезать резюме за счёт ods resume mastering и startup never sleeps jobs
Данный тред не притендует на полноту, faq в чатах про стажировки обычно полнее.
Тред #1
Среда
Тред про то как я парсил данные в пет проекты.
неожиданно иногда нет смысла парсить в чистом виде - это касается книг. Есть смысл погуглить минут 15 адекватную .pdf/fb2/любой xml tree format версию и потом разобрать ее регулярками/чем угодно.
⬇️
парсить то что срут(ну типа чем замирают сети) пользователи стало не легальнос с 1 марта. ДАННАЯ ИНФОРМАЦИЯ ДЛЯ ОЗНАКОМЛЕНИЯ И НАУЧНО ИССЛЕДОВАТЕДЬСКОЙ ДЕЯТЕЛЬНОСТИ.
Парсить дейтинг сервисы легко. Они не имеют почти никакой защиты и все довольно оперативно отдают
⬇️
В оригинальном плане тут могла бы быть ссылка на мою статью на хабре, но статья набрала -12 кармы(или хз чего) и я ее удалил чтобы совсем не убить профиль.
Кстати там была классная шутка что для хабра акутльнее лайкать мужчин, а не женщин, но кажется шутка не зашла.
⬇️
Тикток, Инстаграм и все все все.
Для них существуют pipy проекты по первой ссылке в Гугле. Их вполне хватит на то чтобы выкачать какую то дичь для курсовой/диплома. А вот дальше начинается боль - придёт думать о мульти прокси, клик симуляции и тд. Но в целом все решаемо
⬇️
Каких то супер инсайдов не будет, но кажется их и быть особо не может. А, единственное что у tinder api открытое и весит на фронте максимально открыто. Всё.
Тред #2
Кстати есть такая классная консольная тулза - ffmpeg, с ее помощью можно осуществить простой монтаж даже в Google collab.
Склеить файлы ffmpeg -f concat -safe 0 -i ./file -c copy in.mp4
Обрезать начало ffmpeg -ss 00:00:50 -i in.mp4 -c copy full_cut.mp4
Сжать качество для ютуба
ffmpeg -i full_cut.mp4 -c:v libx264 -preset slow -crf 18 -c:a copy -pix_fmt yuv420p full_cut_youtube.mp4
Ускорить в 4 разаffmpeg -itsscale 0.25 -i full_cut_youtube.mp4 -c copy full_cut_youtube_speedup.mp4
Выбросить лишние кадры
ffmpeg -i full_cut_youtube_speedup.mp4 -filter:v fps=30 full_cut_youtube_speedup_drop.mp4
Добавить зацикленное аудиоffmpeg -i full.mp4 -stream_loop -1 -i bensound-acousticbreeze.mp3 -shortest -map 0:v:0 -map 1:a:0 -y full_speed_audio.mp4
Не могу не рассказать про своих друзей и дружественные мне каналы. Это Даня и он serial Russian hacker. И нет, он не взломал Пентагон. Он выиграл кучу хакатонов и сделал много годных сервисов. А ещё у него есть очень крутой канал с таким контентом.
t.me/danokhlopkov
Четверг
@dsunderhood Чтобы не собирать сложные цепочки фильтров вручную, рекомендую использовать github.com/kkroening/ffmp… Можно даже вкорячить применялку нейросетей к кадрам через pipe'ы.
Да, классная штука twitter.com/Brotherofken/s…
Кстати классная дистиллированная версия biggan
github.com/terarachang/AC…
Есть такая крутая тема для питона JIT компиляция. Суть ее в том что то мы интерпретировали питоном в байткод можно собрать в машинный код и в свою очередь дополнительными инструкциями до скорости сравнимой с c++. Мне jit помог с попиксельной обработке изображений
И матричных операциях. А вот моя любимая статья про jit в питоне m.habr.com/ru/post/484136/
Наконец-то доел кулич и пошел гулять по берегу Яузы. Погода стояла прекрасная, но я не мог заснуть из последних сил; мне снилась старая крепость: справа возвышался замок с зубцами на стенах — слева церковь Петра Великого (так называлась она в то время) со сводом наподобие часовни pic.twitter.com/ZePXqZ2MmJ
Люблю свой акт проект twitter.com/NeuralPushkin/…
Суббота
Кстати это один из лучших и самых подробных гацдов по деплою ваших микросервисов на хероку. Предвосхищу вопрос - ocr tesseract нормально заводиться как и многие простые модельки
towardsdatascience.com/deploy-python-…
Кстати одна из самых полезных инвестиций - подписка на медиум. Серьезно. За 5$ вы получаете все толковые гайды
Кстати я давно думаю о том чтобы собирать collab ноутбуки с простыми апишками, тгботами и тд.
Ну частично для того чтобы пиарить свой блог, не без этого. Частично потому что когда пишешь что то для людей у меня срабатывает такая штука я должен разобраться глубже чем если я просто использую.
Кстати я в январе писал такую интересную штуку - paper summary. Принципиально это bert summarize даже не тюненый. Планирую в июне заменить на тюненный T5, а датасет взять в виде пары arxiv paper-arxiv paper preview.
Тыкать можно тут: github.com/AlexWortega/Co…
Кстати внутри есть простая графовая моделька. Я планировал прикрутить к ней Sbert embeddings и на основе их сделать QA систему. Ну типа чуть умнее поиска по статье
Воскресенье
@dsunderhood Если открывать статьи в инкогнито моде в хроме, то гайды можно получить бесплатно
Ладно, это твиттер и без срачей тут кажется не принято. Постить бмв я не буду, но вот про этику немного подушню. 1) Для любого человека работающего в индустрии 5$ это кофе. Да, это три кофе в Макдональдс, но тем не менее это какие то малоощутимые деньги. ⬇️ twitter.com/TEarth42/statu…
А вы никогда не задумывались сколько стоит время сэкономленное тобой за счёт этой статьи? А если было найдено оптимальное решение то и время клиентов? Нет? Может быть это стоит в разы больше чем 5 баксов в месяц? Опять же - платя эти деньги ты поддерживаешь ⬇️
Независимых авторов которые в будущем будут выпускать ещё более годные статьи, будет увеличиваться конкуренция и тем самым мы как пользователи получим ещё более годный контент. У нас не так много действительно крутых площадок: Reddit, medium, git(в меньшей степени). ⬇️
Для СНГ ещё можно назвать хабр , но он скорее мертв(переводы/нытье/новости). И вы разработчики действительно не понимаете почему надо платить? Давайте ещё ide шки пиратить, чо бы нет? Я не понимаю такого подхода - это кормит вас, вложите чуть чуть денег чтобы людям которые это ⬇️
делают тоже было на что поесть. Почему то когда надо платить за музыку/кино вопросов нет.
Тред #3
Большое всем спасибо за эту неделю и за возможность вести этот блог. Было приятно пообщаться.
Мой канал для нытья в телеге:
t.me/response1000000
Мой арт проект Нейро Пушкин:
twitter.com/NeuralPushkin