Skip to content

Latest commit

 

History

History
228 lines (127 loc) · 27.1 KB

ML-101 Guide.md

File metadata and controls

228 lines (127 loc) · 27.1 KB

ML-101 banner

Getting Started with Machine Learning and Data Science (ML-101)

Вход в профессию

Introduction / Введение

Who can apply / Для кого этот курс

Course outline / Схема курса

Module 01 / Модуль 01 ready

Module 02 / Модуль 02 ready

Module 03 / Модуль 03 ready

Basic knowledge / Базовые знания

Instruments / Инструменты

Course principles / Принципы курса

Certificates / Сертификаты ready

Repository structure / Структура репозитория

Registration / Как зарегистрироваться на курс

Введение

Всем привет!

Меня зовут Анастасия Риццо, я data scientist, а так же автор и преподаватель этого курса.

Со многими из вас мы уже знакомы по data science вебинару на канале DataLearn, а также по курсу Data Engineering от Дмитрия Аношина.

Совместно с Data Learn мы начинаем вводный курс в теорию Машинного Обучения и Data Science ML-101 , с понятной теорией и практическими кейсами из реальной жизни.

Intro Video

Для кого этот курс

Этот курс рассчитан на людей, которые:

  • очень интересуются тематикой, но, по ряду причин, всё никак не могут начать её изучать;

  • хотят поменять профессию и уйти в Data Science, но не совсем понимают, что их ждет и стоит ли игра свеч;

  • хотят войти в мир Data Science не просто в теории, но и самостоятельно сделать несколько практических кейсов;

  • уже работают как Data Engineer или Business/BI/Data Analyst, и хотят говорить на одном языке с Data Scientist.

Схема курса

Давайте я обрисую схему курса и вы, перейдя по ссылкам, увидите детальное описание каждого модуля:

Итак, курс состоит из 3 модулей.

Первый модуль это теория, Второй и Третий модуль это теория вместе с практикой.

Базовые знания

Примечание: Если вы чего-то не знаете, то будем разбираться вместе по ходу курса.

Давайте поймем какие базовые знания вам понадобятся:

1. Теория Баз Данных

Тут надо всего чуть-чуть самых основ: представлять, что такое база данных и знать, что именно в ней лежат данные; знать минимальную терминологию. Все остальное «страшное-сложное» я вам расскажу. Если вы здесь уже «на опыте» или проходите курс DE-101 Дмитрия Аношина, то с этим вопросом у вас проблем не будет.

2. Статистика

Тут она, конечно, нужна, но не вся; но введение в неё прочитать стоит; буду использовать много терминов оттуда. Но, в целом, по ходу обучения разберёмся.

3. Алгоритмы

Тут речь пойдёт об алгоритмах машинного обучения. И это всё очень индивидуально. У меня с ними любовь аж со второго курса универа. Надо просто захотеть их понять и разложить на ряд маленьких шагов. В общем, с этим мы тоже справимся вместе 😊

4. Python

В Data Science используют 2 языка программирования: Python и R. Мы будем использовать Python. Те из вас, кто знаком с программированием на любых других языках, сможет легко перейти на Python. Это очень простой для понимания язык. Те, кто и слово то такое не слышал, вы не переживайте, но начать учить надо. Когда я начну рассказывать теорию, вы ещё можете просто смотреть на скрины с кодом. Но когда у нас начнётся практика, вам будет тяжело. Я буду стараться комментировать код, но его будет много и вам станет страшно. И, возможно, большая часть людей уйдёт с радаров насовсем, подумав, что:

  • жизнь – боль и data science это не для них;

  • курс плохой, ничего не понятно;

  • я слишком умный для всего этого, пойду поем!

Выход такой:

  • возьмите любой быстрый курс по введению в Python или посмотрите Data Learn вебинары по Python от Дмитрия Беляева: Вебинар 1 и Вебинар 2

  • когда пойдут практические кейсы, вы хотя бы начните понимать и запоминать какой кусок кода что делает и за что отвечает (как детали Lego); старайтесь своими пальчиками перепечатывать код (это называется hands-on practice) – мозг что-то точно отложит и запомнит; а позже сами старайтесь разобрать код. Да, это копирование. Но любое обучение начинается с него. У вас всё получится!

5. Немного Математики

Тут прям совсем чуть-чуть надо, 2+2, даже говорить неприлично.

6. Английский язык

Он нужен и точка. Кто не знает – начинайте учить. Ваш уровень должен быть таким, чтобы вы смогли читать и понимать текст. В нашем случае, еще и техническую терминологию.

Даже если:

  • вы работаете в России, Украине, Белоруссии (ребята, держитесь там!), Казахстане и других странах постсоветского пространства, и общаетесь на своих родных языках...

  • вы можете изучить базы данных, статистику, алгоритмы и математику на своём родном языке...

...то, что делать с программированием? Как вы будете писать код (пусть и с комментариями на вашем языке)?

И ещё один момент. Я получила западное образование, всю техническую литературу и терминологию мне легче объяснить на английском. Порой, я даже не знаю как то или это на русском. Но, всё же, я русскоговорящая и делаю этот курс для вас. А вам надо начинать изучать английский язык. Поэтому, местами я буду переходить с одного языка на другой, где-то использовать только английскую терминологию. Это пойдёт вам только на пользу. Особенно для тех, кто в будущем планирует вести проекты с западными командами. Поэтому, комментариев из серии «не выношу перескакивания с одного языка на другой», "плохое произношение" или «не выделывайся и говори на русском» мы, надеюсь, избежим. Спасибо за понимание!

Инструменты

Какими инструментами мы с вами будем пользоваться:

1. Youtube

Канал Data Learn, там мы будем смотреть все видео курса. Кстати, там много других полезных видео и вебинаров по таким тематикам как: Data Engineering, Аналитика, Python, Data Science, SQL, Карьера, Ведение проектов и работа в Data команде, Изучение английского языка, Эмиграция технических специалистов.

2. Github

Там будет находиться вся навигация этого курса + там будут лежать наши практические кейсы. И, да, вам обязательно надо будет завести там аккаунт. У кого есть - молодцы! У кого еще нет аккаунта тоже ок, я сделала для вас инструкцию с картинками “что-куда-зачем нажать” (чтобы вы точно пришли из пункта “А” в пункт “Б”).

Кто хочет изучить тему Github более детально, то на Data Learn есть инструкции how_to. Ещё вы найдете ссылки тут.

Для айтишников это знакомый ресурс, там лежит много кода и полезной информации, а так же мы используем его как наше техническое резюме. Кто не знает, что такое техническое резюме, сейчас расскажу.

Это не резюме в общепринятом смысле. А, скорее, примеры работ, портфолио если хотите. В данном случае, это ваш Github аккаунт. Там мы показываем что стоит за написанными в реальном резюме красивыми словами. Какие проекты были реально сделаны и как именно.

Каждый проект (или что вы решите выставить: хорошую курсовую, домашнее задание, просто код) имеет отдельный репозиторий (или, простыми словами, главная папка где он хранится). У репозитория должно быть понятное название (не набор букв “wmvhf-05” и понимай как хочешь), хорошее описание проекта (о чем проект, что там сделано), чистый код (очень желательно с комментариями). Чем больше качественных и правильно оформленных репозиториев, тем лучше.

Любая серьезная IT компания, команда, hr менеджер захотят увидеть ваш Github перед тем как с вами разговаривать. Оба моих data science интерншипа (Mozilla Amazon) проходили с использованием Github. При подаче документов на интерншип в Mozilla аккаунт Github стоял как mast-have.

Представьте, что вы работодатель, и вам надо нанять на работу 1 кандидата из 100. Перед вами 100 идеальных резюме. Как выбрать? Если у кандидатов есть Github, то они уже на ступень выше остальных. Хотя бы потому, что они облегчили работодателю задачу выбора путем предоставления своего технического резюме, сэкономили его рабочее время.

А нужно вам всё это, если:

  • у вас есть амбиции;

  • вы хотите от жизни большего;

  • в будущем видите себя в компаниях FAANG или где-то на той же орбите;

  • вы уже выходите на уровень создания чего-либо не только за деньги, но и с целью сделать Мир лучше.

Еще важно (для западных работодателей особенно) какой вклад человек вносит в Open Source community (здесь можно погуглить). Можно присоединиться к репозиториям разных курсов (например, к этому) и там выполнять задания (это будет отображаться в вашем аккаунте). Можно создать свой репозиторий с контентом по той теме в которой вы профи и выложить это для людей. Можно найти аккаунт любой IT компании и сделать свой вклад в их код или проект (если они ваш вклад примут, или merge, то это уже прям вы молодец!).

3. Slack

Это месенджер, вы можете скачаеть его тут для компьютера или найти версию для телефона; в нем мы будем общаться, задавать вопросы, обсуждать что-либо.

4. Компьютер или Ноутбук

Для практических работ вам понадобится любой компьютер или ноутбук с операционными системами Windows, Maс или Linux. На него мы установим Jupyter notebook - это та среда, где мы будем писать код и производить вычисления.

Теперь немного о том, почему именно эту среду разработки мы будем использовать. Я знаю, что многие из вас используют другие среды и обязательно напишут много комментариев с этим вопросом. А всё просто. Курс МЛ 101 вводный и расчитан на очень базовые навыки и знания. И учиться мы будем на простых и понятных инструментах. Jupyter notebook прост в установке, прост по дизайну интерфейса, прост в обращении. И, главное, прост для понимания как работает тот или иной код. Опять же, из своего опыта, на моих интерншипах от нас требовали использовать Jupyter notebook. С опытом вы можете перейти на более профессиональные инструменты.

Вот ссылка на инструкцию по установке.

Доступ в интернет само собой нужен.

Принципы курса

Как и все курсы Data Learn, этот курс имеет свои принципы:

  1. Начинаем от простого и идем к сложному.

  2. Объясняю всё "на пальцах", простым языком. Я адепт Симплификации. Я могу обьяснять вам заумную теорию академическим языком, но какой в этом смысл, если теория так и останется не понятой большинством . Я считаю, что самое трудное, это объяснить сложные вещи простым языком.

  3. Все практические кейсы, которые мы будем разбирать, из реальной жизни.

  4. Research, то есть поиск недостающей вам информации самостоятельно. Я рассказываю вам тему, показываю вам это направление, мы с вами вместе по этой теме идём. Если вам недостаточно информации, то просто google it.

  5. Критика только конструктивная. Это значит, что если вы что-либо критикуете, то взамен предложите лучшее решение. Нет решения - критика не принимается.

Сертификаты

Так как курс пока еще в процессе создания, мы не придумали как будет выглядеть финальный сертификат, но постоянно думаем об этом. Помимо основного сертификатa мы добавили концепцию значков, которые вы будете получать за выполнения домашнего задания для каждого модуля.

Курс ML-101 состоит из 3 модулей и за каждый модуль вы получите значок. Чтобы его получить, вам необходимо показать нам ваш Github, в которому будет создана папка ML-101, а внутри будуте подпапки:

  • Module01
  • Module02
  • Module03

Если вы сделали домашнее задание, то в папку ML-101 вы сможете добавить новый документ по нашему шаблону, в котором будет информация о ваших достижениях.

Несмотря на то, что Data Learn еще относительно молодой проект, он уже завоевал доверие у многих дата профессионалов, а это значит, студенты Data Learn получают самые актуальные знания, которые востребованы на отечественном и западном рынке. Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist.

Структура репозитория

Сейчас я расскажу вам как пользоваться этим репозиторием.

  • файл README.md - это знакомство с платформой Data Learn, описание курсов, небольшие инструкции по регистрации.

  • файл ML-101 Guide.md - это наш гид по курсу ML-101 (Getting Started with Machine Learning and Data Science), который содержит всю информацию и имеет ссылки на необходимые ресурсы для успешного прохождения курса.

  • папкa ML-101 Modules - содержит 3 папки, соответствующие 3м модулям этого курса: Module 01, Module 02, Module 03. Вы найдете там: описание уроков, ссылку на видео урок, дополнительные материалы (опционально) и задания практического кейса (выполнение которого обязательно для успешного прохождения курса и получения значков и сертификата).

  • папка how_to - содержит инструкции по установке нужных нам инструментов.

Как зарегистрироваться на курс

  1. Вы регистрируетесь на странице курса ML-101 .
  2. На сайте появляется страница, на которой будет ссылка на не большой опрос про ваш опыт и интерес к ресурсу. Вам нужно заполнить опрос.
  3. Когда вы пройдете опрос, на странице по завершения опроса вы увидите ссылку приглашение в наше Slack комьюнити.

Slack это месенджер, вы можете скачаеть его тут для компьютера или найти версию для телефона; в нем мы будем общаться, задавать вопросы, обсуждать что-либо.

Наши каналы в Slack:

У курса ML-101 есть общий канал курса и отдельные каналы для каждого модуля, где будут выходить анонсы, обсуждаться практические задания и можно попросить помощи у коллег.

  • ml-101-общий чат курса , ml_module01 , ml_module02 , ml_module03 . 3 модуля == 3 канала.

  • data_learn_announce - главный канал, в него мы публикуем новости, анонсируем новые видео; вы можете комментировать сообщения.

  • data_learn_chat - болталка для всех и обо всем.

  • ask-help-with-data-stuff - можно задать вопрос на любую тему или попросить помочь с вашей работой.

  • boltalka - это канал обо всем.

  • what_i_learnt - канал, где вы можете рассказать о том, что вы выучили и какой курс прошли.

  • python-chat - канал посвящен вопросам Python.

Вы можете добавить нужный вам канал Slack и посмотреть на весь список доступных каналов, кликнув на +.

img

Всем спасибо и до встречи на курсе ML-101 и в нашем сообществе Datal Learn в Slack.

Анастасия Риццо / Anastasia Rizzo.