Uso de Inteligência Artificial para Análise e Previsão da Qualidade da Água em Corpos Hídricos

dc.contributor.advisorRamos Pereira, Moisés Henrique
dc.contributor.authorMurta Castro Lima, Pâmela
dc.contributor.refereeAdriano, Lages dos Santos
dc.contributor.refereeCarlos Alexandre, Silva
dc.date.accessioned2026-01-02T20:41:05Z
dc.date.created2025-11-28
dc.descriptionEste trabalho investiga a aplicação de técnicas de aprendizado de máquina para análise e predição da qualidade da água em áreas impactadas pelo rompimento da Barragem de Fundão na Bacia do Rio Gualaxo do Norte (Mariana/MG). A pesquisa estruturou-se em duas fases complementares: análise exploratória não supervisionada mediante redução dimensional (PCA, UMAP, t-SNE) e clusterização (K-Means, HDBSCAN), seguida de modelagem preditiva supervisionada com três algoritmos (Random Forest, Gradient Boosting Machines e Multi-Layer Perceptron). Utilizou-se base de dados de Santos (2018) contendo 324 amostras de água coletadas em 27 pontos ao longo de 12 campanhas de campo. A análise não supervisionada identificou configuração ótima (Bloco C, 8 variáveis) com coeficiente de silhueta excepcional de 0,834 e estabilidade temporal de 81,2%, evidenciando agrupamentos naturais robustos frente à variabilidade sazonal. A modelagem supervisionada demonstrou superioridade do Random Forest, que alcançou acurácia de 96,77% no cenário de alta pureza de rótulos (151 amostras), superando o baseline de Santos (2018) em 2,56 pontos percentuais. Técnicas de inteligência artificial explicável (SHAP e LIME) identificaram Fósforo Total e Escherichia coli como variáveis mais discriminativas, com contribuição combinada superior a 50% das decisões. Análise crítica revelou que qualidade de rótulos domina quantidade de dados: cenário com 151 amostras e pureza ≥70% superou configuração com 303 amostras de pureza moderada em 11,52 pontos percentuais. Demonstrou-se empiricamente o fenômeno de vazamento de dados (data leakage) quando coordenadas de projeções dimensionais são utilizadas como variáveis preditoras, fundamentando exclusão deliberada dessas coordenadas para garantir generalização genuína. Os resultados validam aplicabilidade de modelos de aprendizado de máquina interpretáveis como ferramental para monitoramento ambiental pós-desastre, com implicações práticas para gestão de recursos hídricos e proposição de protocolo simplificado focado em variáveis-chave.
dc.description.abstractThis study investigates the application of machine learning techniques for water quality analysis and prediction in areas impacted by the Fundão Dam rupture in the Gualaxo do Norte River Basin (Mariana, Minas Gerais, Brazil). The research was structured in two complementary phases: unsupervised exploratory analysis through dimensionality reductio (PCA, UMAP, t-SNE) and clustering (K-Means, HDBSCAN), followed by supervised predictive modeling with three algorithms (Random Forest, Gradient Boosting Machines, and Multi-Layer Perceptron). The Santos (2018) database was used, containing 324 water samples collected from 27 points across 12 field campaigns.Unsupervised analysis identified an optimal configuration (Block C, 8 variables) with exceptional silhouette coefficient of 0.834 and temporal stability of 81.2%, revealing natural clusters robust to seasonal variability. Supervised modeling demonstrated Random Forest superiority, achieving 96.77% accuracy in the high-purity label scenario (151 samples), surpassing Santos’ (2018) baseline by 2.56 percentage points. Explainable artificial intelligence techniques (SHAP and LIME) identified Total Phosphorus and Escherichia coli as the most discriminative variables, with combined contribution exceeding 50% of decisions. Critical analysis revealed that label quality dominates data quantity: a scenario with 151 samples and purity ≥70% outperformed a configuration with 303 moderate-purity samples by 11.52 percentage points. Data leakage phenomenon was empirically demonstrated when dimensional projection coordinates are used as predictive variables, justifying their deliberate exclusion to ensure genuine generalization. Results validate the applicability of interpretable machine learning models as tools for post-disaster environmental monitoring, with practical implications for water resource management and proposing a simplified protocol focused on key variables.
dc.identifier.advisorLatteshttp://lattes.cnpq.br/5471286139284637
dc.identifier.advisorOrcid0000-0003-4993-6929
dc.identifier.authorLatteshttps://lattes.cnpq.br/7419873644867505
dc.identifier.authorOrcid0009-0008-3368-285X
dc.identifier.refereeLatteshttp://lattes.cnpq.br/0342059419632367
dc.identifier.refereeLatteshttp://lattes.cnpq.br/8465270749629421
dc.identifier.refereeOrcid0000-0003-2351-9561
dc.identifier.refereeOrcid0000-0002-5597-4254
dc.identifier.urihttps://hdl.handle.net/20.500.14387/2811
dc.language.isopor
dc.publisher.campiOuro Preto
dc.publisher.countryBrasil
dc.publisher.institutionInstituto Federal de Minas Gerais
dc.publisher.programEspecialização em Inteligência Artificial
dc.rightsAcesso aberto
dc.subject.cnpqEngenharias
dc.subject.keywordsAprendizado de Máquina; Qualidade da Água; Random Forest; Inteligên cia Artificial Explicável; Monitoramento Ambiental Pós-Desastre; Clusterização; Barragem de Fundão.
dc.subject.keywordsMachine Learning; Water Quality; Random Forest; Explainable Artificial Intelligence; Post-Disaster Environmental Monitoring; Clustering; Fundão Dam.
dc.titleUso de Inteligência Artificial para Análise e Previsão da Qualidade da Água em Corpos Hídricos
dc.title.alternativeUse of Artificial Intelligence for Water Quality Analysis and Prediction in Water Bodies
dc.typeTrabalho de Conclusão de Curso

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tcc_pamela_vf.pdf
Tamanho:
25.54 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.72 KB
Formato:
Item-specific license agreed to upon submission
Descrição: