Análise de técnicas de agrupamento de dados para notícias de futebol

Data
2023-11-30
Título da Revista
ISSN da Revista
Título de Volume
Editor

Resumo

Agrupamento de dados é uma técnica de aprendizado não supervisionado que busca padrões ocultos em um conjunto de dados. Para isso, o conjunto é dividido em subgrupos com características semelhantes entre si e distintas dos demais grupos. O presente trabalho investiga as técnicas de agrupamento K-Means, Hierárquico, DBSCAN e mistura gaussiana, aplicadas em notícias do Campeonato Brasileiro de Futebol. A pesquisa tem como objetivo analisar o funcionamento das técnicas e proporcionar possibilidades de identificação de padrões nos dados. No estágio inicial, realizou-se o pré-processamento dos dados, incluindo tokenização e remoção de palavras de parada. As notícias foram representadas através da técnica TF-IDF. Em seguida, empregou-se a técnica de redução de dimensionalidade a partir da Análise Semântica Latente. O agrupamento das notícias foi realizado com o número de grupos definido em 21, representando a quantidade de times participantes no campeonato. Os resultados indicaram que tanto o algoritmo K-Means quanto o Modelo de Mistura Gaussiana alcançaram uma acurácia de 75%, demonstrando desempenho superior perante os demais. Adicionalmente, foram realizados experimentos sem a definição prévia do número de clusters, empregando busca em grade para determinar o melhor coeficiente de silhueta. Os algoritmos variaram entre 25 e 32 grupos, sugerindo que essa faixa é apropriada para a divisão da base de dados das notícias.


Descrição
Palavras-chave
Citação