Uso de Inteligência Artificial para Análise e Previsão da Qualidade da Água em Corpos Hídricos

Data

Autor(es)

Orientado(es)
Ramos Pereira, Moisés Henrique

Título da Revista

ISSN da Revista

Título de Volume

Editor

Abstract

This study investigates the application of machine learning techniques for water quality analysis and prediction in areas impacted by the Fundão Dam rupture in the Gualaxo do Norte River Basin (Mariana, Minas Gerais, Brazil). The research was structured in two complementary phases: unsupervised exploratory analysis through dimensionality reductio (PCA, UMAP, t-SNE) and clustering (K-Means, HDBSCAN), followed by supervised predictive modeling with three algorithms (Random Forest, Gradient Boosting Machines, and Multi-Layer Perceptron). The Santos (2018) database was used, containing 324 water samples collected from 27 points across 12 field campaigns.Unsupervised analysis identified an optimal configuration (Block C, 8 variables) with exceptional silhouette coefficient of 0.834 and temporal stability of 81.2%, revealing natural clusters robust to seasonal variability. Supervised modeling demonstrated Random Forest superiority, achieving 96.77% accuracy in the high-purity label scenario (151 samples), surpassing Santos’ (2018) baseline by 2.56 percentage points. Explainable artificial intelligence techniques (SHAP and LIME) identified Total Phosphorus and Escherichia coli as the most discriminative variables, with combined contribution exceeding 50% of decisions. Critical analysis revealed that label quality dominates data quantity: a scenario with 151 samples and purity ≥70% outperformed a configuration with 303 moderate-purity samples by 11.52 percentage points. Data leakage phenomenon was empirically demonstrated when dimensional projection coordinates are used as predictive variables, justifying their deliberate exclusion to ensure genuine generalization. Results validate the applicability of interpretable machine learning models as tools for post-disaster environmental monitoring, with practical implications for water resource management and proposing a simplified protocol focused on key variables.


Resumo

Este trabalho investiga a aplicação de técnicas de aprendizado de máquina para análise e predição da qualidade da água em áreas impactadas pelo rompimento da Barragem de Fundão na Bacia do Rio Gualaxo do Norte (Mariana/MG). A pesquisa estruturou-se em duas fases complementares: análise exploratória não supervisionada mediante redução dimensional (PCA, UMAP, t-SNE) e clusterização (K-Means, HDBSCAN), seguida de modelagem preditiva supervisionada com três algoritmos (Random Forest, Gradient Boosting Machines e Multi-Layer Perceptron). Utilizou-se base de dados de Santos (2018) contendo 324 amostras de água coletadas em 27 pontos ao longo de 12 campanhas de campo. A análise não supervisionada identificou configuração ótima (Bloco C, 8 variáveis) com coeficiente de silhueta excepcional de 0,834 e estabilidade temporal de 81,2%, evidenciando agrupamentos naturais robustos frente à variabilidade sazonal. A modelagem supervisionada demonstrou superioridade do Random Forest, que alcançou acurácia de 96,77% no cenário de alta pureza de rótulos (151 amostras), superando o baseline de Santos (2018) em 2,56 pontos percentuais. Técnicas de inteligência artificial explicável (SHAP e LIME) identificaram Fósforo Total e Escherichia coli como variáveis mais discriminativas, com contribuição combinada superior a 50% das decisões. Análise crítica revelou que qualidade de rótulos domina quantidade de dados: cenário com 151 amostras e pureza ≥70% superou configuração com 303 amostras de pureza moderada em 11,52 pontos percentuais. Demonstrou-se empiricamente o fenômeno de vazamento de dados (data leakage) quando coordenadas de projeções dimensionais são utilizadas como variáveis preditoras, fundamentando exclusão deliberada dessas coordenadas para garantir generalização genuína. Os resultados validam aplicabilidade de modelos de aprendizado de máquina interpretáveis como ferramental para monitoramento ambiental pós-desastre, com implicações práticas para gestão de recursos hídricos e proposição de protocolo simplificado focado em variáveis-chave.

Palavras-chave

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por