Aplicação de técnicas de mineração de dados para a identificação de padrões em partidas de futebol

Data

Autor(es)

Orientado(es)
Sousa, Mateus Clemente de

Título da Revista

ISSN da Revista

Título de Volume

Editor

Abstract

The growth in the collection and storage of football data, driven by sensors, tracking software, and analytical platforms, has expanded the possibilities for applying Data Science in sports. In this context, Data Mining stands out as a promising approach to explore patterns and understand relationships between technical attributes and team behavior. This study aimed to identify patterns in football matches by applying clustering algorithms to a public dataset containing match statistics. First, different datasets were compared, and one was selected with information on match events (goals, shots, possession, corners, crosses, fouls, and cards). An extract, transform and load process was then carried out to normalize the data and validate record consistency. Next, performance vectors were constructed using temporal match windows, combining five-match histories with aggregated statistics (means and standard deviations over 3, 4, and 5 match windows), which served as input to unsupervised clustering algorithms. The results indicate that the resulting clusters primarily capture differences in style and intensity across leagues, reflecting recent performance patterns, but show low direct correspondence with match outcomes (win, draw, or loss). Therefore, these findings support the use of Data Mining techniques as an exploratory tool in football analytics, providing a basis for future studies in Sports Data Science.


Resumo

O crescimento na coleta e armazenamento de dados no futebol, impulsionado por sensores, softwares de monitoramento e plataformas analíticas, tem ampliado as possibilidades de aplicação da Ciência de Dados no esporte. Nesse contexto, a Mineração de Dados configura-se como uma abordagem promissora para explorar padrões e compreender relações entre atributos técnicos e o comportamento das equipes. Este trabalho teve como objetivo identificar padrões em partidas de futebol por meio da aplicação de algoritmos de agrupamento sobre uma base pública contendo estatísticas dos jogos. Inicialmente, foram comparadas diferentes bases de dados e selecionado um conjunto com informações de eventos de partida (gols, finalizações, posse de bola, escanteios, cruzamentos, faltas e cartões), sobre o qual se realizou um processo de extração, transformação e carga para normalização e validação da consistência dos registros. Em seguida, foram construídos vetores de desempenho em janelas temporais de partidas, combinando históricos de cinco jogos com estatísticas agregadas (médias e desvios-padrão em janelas de 3, 4 e 5 partidas), que serviram de entrada para algoritmos de agrupamento não supervisionado. Os resultados indicam que os clusters formados capturam sobretudo diferenças de estilo e intensidade entre ligas, com padrões de desempenho recente, mas exibem baixa correspondência direta com o desfecho das partidas (vitória, empate ou derrota). Assim, os achados reforçam o uso das técnicas de Mineração de Dados como ferramenta exploratória no contexto do futebol, oferecendo subsídios para estudos futuros na Ciência de Dados Esportiva.

Palavras-chave

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por