Skip to content

Challenge de Data Science que desenvolvemos para Alura. Nesse projeto utilizamos PySpark para análise, tratamento e manipulação de dados, além da criação de um modelo de Machine Learning.

Notifications You must be signed in to change notification settings

millenagena/Challenge-Data-Science-Alura-2ed

Repository files navigation

Challenge de Data Science | 2ª edição

A imobiliária InsightPlaces, situada na cidade do Rio de Janeiro, está enfrentando dificuldades para alugar e vender imóveis. Em uma pesquisa de como empresas semelhantes operam no mercado, a InsightPlaces percebeu que esse problema pode estar relacionado aos valores dos imóveis e às recomendações realizadas em seu site.

Dentro desse contexto, como podemos definir de forma eficiente os preços dos imóveis lidando com grandes volumes de dados? É importante recomendar imóveis utilizando outro critério? O que precisa ser feito?

Você faz parte do time de Ciência de Dados e Big Data da InsightPlaces e ficou responsável por auxiliar no processo de análise de dados dos imóveis, que estão localizados em alguns bairros da cidade do Rio de Janeiro.

Esse projeto tem algumas etapas como: ler e fazer o tratamento do histórico dos preços de imóveis no Rio de Janeiro, construir um modelo de regressão para precificar imóveis e, por último, criar um recomendador de imóveis. Para cada uma dessas etapas, vamos utilizar a ferramenta PySpark, que oferece uma melhor performance ao trabalharmos com grandes volumes de dados.

Semana 1

Na semana 1 vamos fazer parte do trabalho de pessoas engenheiras de dados.

O time de engenharia de dados da InsightPlaces disponibilizou uma base de dados no estado bruto para trabalharmos. Durante a semana 1, ficamos responsáveis por fazer transformações mais iniciais nesses dados, de forma que eles fiquem mais estruturados. Utilizamos os recursos do PySpark para conseguirmos explorar essa base de dados, realizar transformações em algumas colunas e também aplicar filtros específicos para obtermos apenas as informações que interessam para nossa análise.

No final dessa semana, salvamos os dados transformados no formato parquet para podermos utilizá-los na semana 2.

Semana 2

A semana 2 é dedicada ao tratamento dos dados e a criação de modelos de regressão para precificação dos imóveis.

Durante essa semana, realizamos trabalhos de pessoas cientistas de dados. Dessa forma, começamos importando os dados que foram salvos no final da semana anterior e realizamos a exploração, o tratamento e a remoção de dados faltantes dessa base de dados.

Após esses tratamentos, nós preparamos os dados para conseguirmos utilizá-los para a criação de modelos de Machine Learning do PySpark. Salvamos esses dados preparados para ML no formato parquet para utilizarmos na semana seguinte.

Feito isso, finalizamos a semana criando modelos de regressão com esses dados utilizando a biblioteca MLlib do PySpark.

Semana 3 e 4

Durante as semanas 3 e 4, vamos focar em melhorar o sistema de recomendação da InsightPlaces.

Nosso sistema não está recebendo os clicks que esperava apenas recomendando imóveis das mesmas regiões e na mesma faixa de preço. Por isso, como parte do time de Data Science, precisamos criar uma nova mecânica de recomendação de imóveis.

O objetivo é criar um sistema de recomendação de imóveis baseado em similaridade de características. A base de dados utilizada será a base de dados tratada na semana 2, após transformarmos as variáveis categóricas em variáveis binárias e antes de aplicarmos a vetorização.

Para criarmos esse sistema de recomendação, utilizamos técnicas de padronização e redução de dimensionalidade dos nossos dados. Assim, podemos criar nossos clusters e também uma função que seja responsável pela recomendação dos melhores imóveis.

Equipe de Dados

Millena Gená

Millena Gená é estudante de Ciência da Computação na UFU. Atualmente, é Instrutora de Dados aqui na Alura, atuando principalmente na área de Engenharia de Dados. Ela está sempre procurando aprender algo novo sobre tecnologia e é apaixonada por novas aventuras. Programar e ajudar as pessoas são seus hobbies favoritos!

Igor do Nascimento

Igor é graduado em Ciência da Computação. Atua como instrutor de Data Science e Machine Learning no Grupo Alura, tendo como principais interesses na tecnologia: criação de modelos e análise de dados. Nas horas vagas assisto e analiso dados de basquete e adoro ouvir podcasts de humor como Nerdcast e Jujubacast.

Bruno Raphaell

Bruno é estudante de Engenharia Elétrica na Universidade Federal do Piauí (UFPI) e monitor de Data Science, atuando nos fóruns de Data Science, Machine Learning e Deep Learning. Apaixonado por música, programação e trocar conhecimento.

Rodrigo Dias

Rodrigo é estatístico e especialista em Big Data com forte interesse em geoprocessamento, desenvolvimento web, web scraping, machine learning e Data Science. É instrutor e tech lead da escola de dados da Alura.

About

Challenge de Data Science que desenvolvemos para Alura. Nesse projeto utilizamos PySpark para análise, tratamento e manipulação de dados, além da criação de um modelo de Machine Learning.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published