Pular para conteúdo

Pipeline de Dados

  • Estudo do funcionamento e criação de Pipelines de Dados.

Pipeline

Estudo individual realizado seguindo o tutorial.

O tutorial consistia em ensinar como construir e automatizar um processo ETL que pudesse extrair dados de uma API de dados meteorológicos, transformá-los e carregá-los em um bucket S3 usando o Apache Airflow. (O Apache Airflow é uma plataforma de código aberto usada para criar, agendar e monitorar fluxos de trabalho (workflows) de dados. É uma ferramenta popular na área de engenharia de dados e amplamente utilizada para automatizar e orquestrar processos de extração, transformação e carga de dados (ETL), além de outras tarefas relacionadas ao processamento de dados.)

resultado final do tutorial Screenshot from 2023-07-26 17-27-04

Obs:O tutorial teve uma parte limitada, pois o uso dos serviços da Amazon poderia acarretar em utilização de recursos pagos na nuvem, portanto, foi adaptado para funcionar na máquina local.

Histórico de Versão

Data Versão Descrição Autor Revisor Issue
30/06/2023 1.0 Criação do documento Hemanoel Raquel #4