Skip to content

mbaliu-treino/bootcamp-data-engineering-aws-2023

Repository files navigation

Bootcamp Data Engineering AWS 2023

Este projeto é uma solução de dados que visa integrar dados provenientes de duas fontes distintas (de um Banco de Dados Relacional - RDBMS e um de Data Lake) para disponibizá-los em um Data Warehouse de forma a permitir análises e insights consistentes. O desafio é a construção de um Data Pipeline utilizando a Cloud AWS.

ARQUITETURA

1. DATA SOURCES (AWS RDB e AWS S3)

Para simular o contexto, primeiro foram criados fontes de dados (data sources). Uma delas é uma aplicação de geração de dados fictícios usando Python e ingeridos no Amazon RDS. Uma outra é a uma aplicação Python de geração de dados fictícios para criação de diversos arquivos JSON, os quais foram ingeridos em um Bucket do Amazon S3.

2. INGESTÃO NO DATA LAKE (AWS DMS)

3. PROCESSAMENTO E MANIPULAÇÃO NA CLOUD

4. SERVING

5. DATA WAREHOUSE

About

Bootcamp about data engineering in Cloud with AWS

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published