Pular para conteúdo

🛠️ Engenharia de Dados: O Motor de Inteligência

Nesta fase do projeto, implementamos um pipeline de processamento de dados robusto utilizando Python e Pandas, elevando o nível técnico do projeto de um dashboard passivo para uma ferramenta de engenharia ativa.

⚙️ Arquitetura do Pipeline

O tratamento de dados agora segue um fluxo de Modern Data Stack: 1. Raw (Bronse): Dados brutos extraídos do CSV original. 2. Transform (Silver): Aplicação das regras de negócio via Python. 3. Load (Gold): Exportação de um arquivo otimizado para consumo analítico.

🧠 Lógica de Negócio Aplicada (Code Snippets)

1. Cálculo Dinâmico de Pontuação

Diferente do Power BI, onde cálculos de pontos costumam ser feitos via DAX (mais lento), aqui injetamos a lógica direto no motor de transformação:

def calculate_points(row, side):
    if row['vencedor'] == '-':
        return 1 # Empate
    elif row['vencedor'] == row[side]:
        return 3 # Vitória
    else:
        return 0 # Derrota

df['pontos_mandante'] = df.apply(lambda row: calculate_points(row, 'mandante'), axis=1)

2. Normalização de Entidades

Tratamos inconsistências históricas em nomes de técnicos e formações táticas, garantindo que a análise de agrupamento no Power BI não apresente duplicatas por erros de digitação nos dados brutos.

3. Otimização de Tipagem (Memory Efficiency)

Convertmos strings de datas e objetos genéricos em tipos nativos do Pandas (datetime64), reduzindo o consumo de memória e acelerando filtros temporais em até 10x.

📋 Resultados do Processamento Automatizado

O arquivo data_cleaning.py entrega:

  • Volume Processado: +7.600 partidas tratadas em milissegundos.
  • Data Quality: 100% dos valores nulos em campos críticos de comando técnico foram mitigados.
  • Exportação: Gerado o brasileirao_clean.csv, pronto para conexão via Power BI ou Notebooks Jupyter.

Este processo transforma dados brutos em ativos de decisão, garantindo integridade e escalabilidade para o projeto.