Skip to content

Latest commit

 

History

History
157 lines (104 loc) · 30.3 KB

DE - 101 Guide.md

File metadata and controls

157 lines (104 loc) · 30.3 KB

cover

Getting Started with Analytics and Data Engineering

Примечание: Курс изначально назывался Getting Started with Analytics and Data Engineering, что значит Введение в аналитику и инжиниринг данных. Синоним этого словосочетания - Analytics Engineering, что переводится как Инжиниринг Аналитики, то есть полный цикл создания аналитического решения с 0.

Введение

Всем привет! Меня зовут Дмитрий Аношин. Спасибо, что нашли время ознакомиться с моим ресурсом. Надеюсь мой опыт поможет вам в достижении ваших целей и вы сможете приобрести новые знания, а также помочь другим.

Вот уже 4 года я работаю дата-инженером в Amazon. Когда я в 2016 году начинал работать на позиции data engineer, я особо не вдавался в подробности, что это за роль. Просто искал работу в области данных, желательно Business Intelligence разработчиком. А получилось найти позицию data engineer в Amazon. Частично мне повезло, частично это было заслуженно, так как с 2010 года я непрерывно учился и развивался в области аналитики.

Я преследовал несколько целей:

  1. Получать хорошую зарплату.
  2. Работать в хорошей компании.
  3. Работать за границей, желательно близко к морю или океану.

Поэтому очень важно на начальном этапе определиться с целью. Именно цель даст вам силы и мотивацию для её достижения.

Сейчас очень много "мусора" в онлайне и в оффлайне, все готовы вас научить. Обычно по принципу "утром деньги - вечером стулья": то есть сначала вы платите за курс, а там - как повезет.

Сам я читал множество книг, смотрел обучающие видео и проходил курсы на Coursera и edX. И зачастую курс бывает "формальный", неинтересный, скучный. Я бы не хотел сделать еще один скучный курс, поэтому этот курс будет меняться и эволюционировать, у него могут появляться новые модули и изменяться старые.

Я не преследую цели научить всех и не преследую цели зарабатывать на студентах. Так сложилось, что за свою карьеру я помог 8-ми знакомым пройти путь с нуля до трудоустройства, и 6 из них до сих пор успешно работают с данными.

Меня до сих пор спрашивают: как научиться, как начать? И чтобы не рассказывать снова и снова одно и то же многократно, я решил сконцентрировать эти знания на ресурсе Data Learn. Я не являюсь супер-экспертом в какой-то области и всё, о чем я говорю, - это моё восприятие роли аналитики, данных и инструментов аналитики для помощи бизнесу.

Как я уже говорил, курс бесплатный, так как он ничего не гарантирует. Но я уверен: он работает, так как позволит вам сфокусироваться на важном и отбросить всё лишнее, но при условии, что у вас есть цель и вы готовы реально поднапрячься, так как основная нагрузка ложится именно на ваши плечи.

Также хотелось бы создать экосистему - не просто набор видео лекций и упражнений, но framework, в котором люди могут помогать друг другу с решением задач и упражнений и делиться опытом. Будет просто замечательно, если вы станете data ambassador и будете принимать участие в создании, исправлении и добавлении контента.

Еще один важный для меня момент - это возможность делиться западным опытом с русскоязычным комьюнити, рассказывать о популярных на западе технологиях и решениях, помогать подготовиться к собеседованию в западную компанию, например в Амазон.

Если задуматься над вопросом "что самое ценное в курсе?", то я бы отметил 2 момента:

  1. Понимание задачи бизнеса и умение подобрать правильную (оптимальную) технологию для ее достижения.
  2. Понимание базовых принципов аналитики.

Если по результату курса вы сможете ответить на эти два вопроса, то остальное - уже дело техники и гугл вам в помощь.

По окончании курса планируются сертификаты для всех, кто успешно справится со всеми заданиями (промежуточными заданиями модулей и итоговым заданием). Итоговое задание будет включать в себя проект сквозной аналитики.

Требования

Прежде всего нужно определиться с требованиями для комфортной работы с данными при прохождении курса. Я могу выявить несколько ключевых компонентов:

  • доступ в интернет ;)
  • желательно экран 15" и больше;
  • желательно 16 Gb оперативки (мин 8 Gb), иначе будет тормозить;
  • операционные системы Windows и Maс. Linux тоже подойдет;
  • чтобы получить доступ к AWS, возможно, понадобится ввести номер банковской карты при регистрации (не раньше 4го модуля).
  • Telegram - там можно добавиться в наш чат
  • аккаунт github (мы расскажем в 1й домашней работе как установить GitHub и для чего он используется)
  • знание английского на уровне чтения;
  • умение гуглить ;)
  • наличие социальной сети, чтобы рассказать о курсе ;)

Например, если вы не знаете английский язык, но хотите работать в этой области, то вам следует начать его изучать и активно практиковать!

Подготовка к курсу по Analytics (Data) Engineering

Теперь давайте посмотрим на функциональные требования к инструментам и навыкам. Вы можете не знать ничего из списка, а можете быть экспертами по всем указанным инструментам.

Есть некоторые вещи, которые важно (или как минимум желательно) знать для успешного прохождения курса. Во время курса мы будем их разбирать, но будет хорошо, если вы уже владеете начальными навыками:

Примечание: Если вы чего-то не знаете, не беда, по ходу курса мы познакомимся со всем этим по необходимости. Начиная с основ Excel в Модуле 1. Если кратко, вам нужно знать Excel и SQL для любой работы связанной с данными, так как данные хранятся в таблицах.

  • Excel. Это универсальный инструмент для работы с данными. Если вы никогда с ним не работали, найдите любой ресурс и потренируйтесь. Страница Excel - это таблица со строками и столбцами, в которых можно выполнять операции над данными. Отличная аналогия для баз данных и хранилищ данных. Также в Excel можно создавать графики и Pivot (вы знаете что это?) - это уже как BI инструмент. Мы познакомимся с Excel на 1-м модуле.

  • SQL. Самый важный для меня элемент. Чтобы там ни говорили про Python/Scala/Java, большинство компаний (тот же Амазон) имеют базы данных. И бизнес-пользователи, и аналитики используют SQL для получения данных. Мне нравится ресурс sql-ex.ru. Там есть множество упражнений, достаточно сделать около 30, чтобы понять, как используются SELECT, FROM, GROUP BY, ORDER BY, HAVING, UNION, JOIN, подзапросы. Этого хватит с головой! Есть и множество других ресурсов. Мы начнем использовать SQL на модуле 2. SQL вам не избежать, так что практикуйтесь ежедневно начиная со 2-го модуля.

  • CLI. Command line interface или командная строка. Это важный навык, так как зачастую программы установлены на Linux машинах без графического интерфейса или на удалённых серверах, и нужно консольными командами перемещаться по папкам и запускать программы. Вот отличный курс: Introduction to Shell. Мы будем использовать CLI начиная с модуля 5. Модули 1-3 не используют CLI, только для Git, и я показал все подробно.

  • GitHub. Так как мы используем GitHub как учебник, то обязательно посмотрите, как он работает. Сам по себе Git очень популярен для разработчиков, чтобы хранить код или делать code review (смотреть изменения в коде). Он хорошо работает для SQL, Python, но не работает для приложений вроде Tabelau и PowerBI. Вот инструкция на русском. GitHub нам пригодится для сохранения результата домашних заданий. Вы можете создать свой аккаунт и папку с названием курса и подпапками с название модулей.

Примечание: Специально для вас я записал короткое видео, в котором показал все что нужно знать про Git и GitHub для начала. Я показал как нужно использовать GitHub, чтобы сохранять домашнее задание в свой аккаунт и показал примеры использования CLI и GitHub Desktop (для ленивых).

  • Cloud. Облачные вычисления позволяют нам фокусироваться на решении проблемы и использовать современные сервисы аналитики. Быстро создавать решения для аналитики, масштабировать их. Мы познакомимся с облачными вычислениями на 5-м модуле курса.

  • Python. Так сложилось, что Python стал главный языком для инжиниринга данных, но не главнее SQL. С Python можно сделать все: от графика/отчета до инструмента трансформации данных, Machine Learning модели и т.п. Я склоняюсь к тому, что Python - это уже следующий уровень, сначала надо знать SQL. Например, 80% моей работы Data Engineer - это использование SQL, так как данные либо в озере данных, либо в хранилище данных. В редких случаях нужен Spark (PySpark или Scala). Питон вам понадобиться только в модуле 7, про Apache Spark. В модуле 5 будет вводня лекцию лаба по питону. Мы начнем использовать Python с модуля 7.

Примечание: Каждый модуль состоит из нескольких видео-лекций. Каждый раздел включает в себя небольшую теорию и ссылку на видео-лекцию. При необходимости мы также добавим ссылку на лабораторную работу или домашнее задание. Также вы можете найти секцию дополнительные материалы, где я предоставлю ссылки со статьями на русском и английском по теме. Они не обязательны, но вы можете с ними ознакомиться. В конце каждого модуля небольшой опрос.

Домашнее задание

Почти каждый урок будет иметь домашнее задание. Я записал видео как сохранять домашнее задание в гит. Свой github аккаунт вы будет использовать как дополнение к резюме и proof ваших результатов. Домашнее задание вы можете кидать в соответствующий раздел Telegram-канала, но не ожидайте, что кто-то его проверит, так как никто не проверяет, к сожалению, будеть проактивным, проверяйте задание и учавствуйте в дискуссиях.

Сертификаты и значки по окончанию курса

Так как курс пока еще в процессе создания, мы не придумали как будет выглядеть финальный сертификат, но постоянно думаем об этом. Помимо основного сертификаты мы добавили концепцию значков, которые вы будете получать за выполнение домашнего задания для каждого модуля.

img

Курс состоит из 12 модулей и за каждый модуль вы получите значок. Чтобы его получить, вам необходимо показать нам ваш Github, в которому будет создана папка DE-101, а внутри будут подпапки:

  • Module01
  • Module02
  • ModuleXX

Если вы сделали домашнее задание, то в папку DE-101 вы сможете добавить новый документ по нашему шаблону, в котором будет информация о ваших достижениях.

Несмотря на то, что Data Learn еще относительно молодой проект, он уже завоевал доверие у много дата профессионалов, а это значит, что студенты Data Learn получают самые актуальные знания, которые востребованы на отечественном и западном рынке. Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справились с курсом, то вы легко справитесь с любой задаче на реальной работе.

Трудоустройство

Вы можете рассматривать курс DE-101 как воронку, куда уже записалось больше 2000 студентов, но лишь малая часть там активна. Некоторым, просто интересно посмотреть видео, другие просматривают некоторые части курса. Кто-то хочет посмотреть на контент и его оформление, поэтому для активной части студентов мы решили помогать с трудоустройством. У нас нет связей с компаниями, но мы сами прошли очень много собеседований за свою карьеру и знаем как правильно нужно подготовиться к собеседования, где искать и, главное, что говорить на собеседовании, чтобы найти свою первую работу. Вам необходимо как минимум закончить 4 модуля курса, выполнить все домашние задания и быть активным в Telegram-чате, тогда мы сможем вам помочь найти работу. Так как именно это цель data learn - ваше трудоустройство, мы гарантируем вам, что вы можете найти работу через 5-6 месяцев после начала занятий при полной отдачи. Я уже рассказывал про несколько успешных случаев. Так же много отзывов в моем канале.

Отзывы студентов

Если прям кратко, то ситуация такая, в июне 2020 я встретился с DataLearn и подсел, в самом начале одно из самых полезных было то, что я понял роль аналитики и данных в целом, плюс некоторые вебинары заходят на ура) спустя некоторое время нашёл работу системным аналитиком в разработке продукта в ритейле, на зарплату +- среднюю для старта, спустя 7 месяцев опыта, самообучения по вечерам и в свободное время(~10 часов в неделю, это на вскидку) мне удалось получить оффер с доходом ~2,5 раза больше.

По навыкам ещё, курс Анатолия прекрасен, помог шлифануть то, что было) (примечание Анатолий создал лучший русскоязычный курс по SQL)

Собеседование было единственное, у меня не было в планах менять работу в ближайшее время, помог нетворкинг) в целом с SQL, Tableau/PowerBI работу можно найти быстрее, чем Танос щёлкнет пальцами, но если подкрепить это питоном, то работа найдёт тебя сама) Всем успехов и никогда не сдавайтесь)


Хочу поблагодарить тебя за твой крутейший образовательный проект! Благодаря нему я услышал про дивный мир дата инженеров, вдохновился, начал проходить курс, приобретать новые знания и подтягивать имеющиеся неструктурированные.

В итоге сменил сферу деятельности на ту, которая меня больше драйвит и выглядит более перспективной: продуктовая/ BI аналитика в одной из топовых IT компании РФ, цифровыми продуктами которой большинство из нас пользуется регул(Я)рно.

Не скажу, что я "ворвался в IT", т.к. до этого я уже был системным\бизнесовым аналитиком (тем самым "бизнес-аналитиком", быть которым у нас в РФ означает что угодно).

Тем не менее, сдвиг парадигмы произошел значительный (крупнейший за последнее время), задачи теперь более осмысленные и ежедневная деятельность ощущается по-новому!


Дима, привет! Хочу выразить благодарность тебе и всему сообществу даталерн! Почти месяц прошёл с тех пор, как я на новой работе. Работа нравится, связана с обработкой и хранением данных, как я и хотел изначально. По ЗП тоже не обидели. Но не скажу, что это было легко :) Кучу нового пришлось изучить, а еще больше приходится изучать уже на работе) Но, как говорится, дорогу осилит идущий. Записался на курс одним из первых, когда он только стартовал в июне или конце мая, точно не помню. Скорее так, для общего развития. Про sql если что-то и знал, то это select звездочка. Слова data warehouse, Кимболл, звезда - все это звучало для меня, как клингонский. Но потом ничего, втянулся. Ты понятно объясняешь и самое главное дал мне понимание всей картины, как это работает вместе. Кто есть кто в команде по работе с данными и зачем вообще это нужно. По отдельным инструментам вроде sql, tableau , bash и питона я уже отдельные курсы гуглил и их проходил, благо их навалом. Оглядываясь назад, дал бы себе следующие советы

  1. Выбрать что тебе ближе bi, data engineer, аналитика данных, data science и. т. д и сфокусироваться на этом.

  2. Чем раньше начнешь ходить на собесы, тем лучше. Быстрее поймешь чего не хватает, правильнее расставишь приоритеты в обучении. Мысли вроде, да я ещё подтяну это или то, тогда начну ходить - это все отмазки мозга, чтобы не вылазить из зоны комфорта. Идеального момента никогда не будет, всегда будет чего то не хватать. Еще и забудете, что учили ранее.

  3. Любая информация забывается, если её не повторять и нигде не использовать. Я три раза курсы по базовому sql проходил. Три раза за неполный год Карл! А потому что на старой работе он был не нужен, а перечитывать теорию мне было лень. Только, когда начал пилить свои пет проекты, где использовал sql и складывал их на гитхаб, тогда в памяти начало что-то откладываться. Отсюда ещё одна рекомендация

  4. Заведите репозиторий на гитхабе и скидывайте туда свои проекты. Или дашборды в табло паблик, смотря чем решили заняться. Прошли курс- сделали проект. Так и в памяти лучше отложится и на собеседовании можно показать. И на работе пригодится, если попадется похожая задача, то сэкономите время, будете хоть понимать куда копать


Поддержка Курса

PS Если материал оказался полезным, вы можете поддержать авторов через ЮMoney или Patreon или Paypal

Всем спасибо и до встречи на курсе и в нашем сообществе Data Learn в Telegram.