Skip to content

alura-tech/pos-datascience-big-data-spark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 

Repository files navigation

Pós-Graduação em Data Science:

Machine Learning em Big Data com Pyspark! 🗃️

Notebooks 📓

Dados 🎲

Os dados foram obtidos no Kaggle e contém informações sobre animes e a preferência de milhares de usuários diferentes, coletadas entre 26 de fevereiro e 20 de março de 2020.

Neste módulo vamos trabalhar com os seguintes datasets:

  • animelist.csv
  • anime_with_synopsis.csv

Os datasets estão disponíveis aqui: dados para download

Não se esqueça de fazer o download dos arquivos e criar uma pasta no seu Google drive com esses arquivos!

Objetivo 🎯

Analisar os dados com o Pyspark e criar recomendações baseadas em Collaborative Filtering.

Vamos lá!!!

About

Módulo 6: Machine Learning em Big Data com Spark

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published