Análise de técnicas de agrupamento de dados para notícias de futebol
dc.contributor.advisor | Doutor Marcos Roberto Ribeiro | |
dc.contributor.author | Cruz, Mateus Araújo | |
dc.date.accessioned | 2023-12-22T10:39:30Z | |
dc.date.available | 2023-12-22T10:39:30Z | |
dc.date.issued | 2023-11-30 | |
dc.description.abstract | Agrupamento de dados é uma técnica de aprendizado não supervisionado que busca padrões ocultos em um conjunto de dados. Para isso, o conjunto é dividido em subgrupos com características semelhantes entre si e distintas dos demais grupos. O presente trabalho investiga as técnicas de agrupamento K-Means, Hierárquico, DBSCAN e mistura gaussiana, aplicadas em notícias do Campeonato Brasileiro de Futebol. A pesquisa tem como objetivo analisar o funcionamento das técnicas e proporcionar possibilidades de identificação de padrões nos dados. No estágio inicial, realizou-se o pré-processamento dos dados, incluindo tokenização e remoção de palavras de parada. As notícias foram representadas através da técnica TF-IDF. Em seguida, empregou-se a técnica de redução de dimensionalidade a partir da Análise Semântica Latente. O agrupamento das notícias foi realizado com o número de grupos definido em 21, representando a quantidade de times participantes no campeonato. Os resultados indicaram que tanto o algoritmo K-Means quanto o Modelo de Mistura Gaussiana alcançaram uma acurácia de 75%, demonstrando desempenho superior perante os demais. Adicionalmente, foram realizados experimentos sem a definição prévia do número de clusters, empregando busca em grade para determinar o melhor coeficiente de silhueta. Os algoritmos variaram entre 25 e 32 grupos, sugerindo que essa faixa é apropriada para a divisão da base de dados das notícias. | |
dc.description.abstract1 | Data clustering is an unsupervised learning technique that searches for hidden patterns in a set of data. To do this, the set is divided into subgroups with characteristics similar to each other and different from the other groups. The present work investigates the K-Means, hierarchical, DBSCAN and Gaussian mixture clustering techniques, applied to news from the Brazilian Football Championship. The research aims to analyze the functioning of the techniques and provide possibilities for identifying patterns in the data. In the initial stage, data pre-processing was carried out, including tokenization and removal of stop words. The news was represented using the TF-IDF technique. Next, the dimensionality reduction technique was used using Latent Semantic Analysis. The grouping of news was carried out with the number of groups set at 21, representing the number of teams participating in the championship. The results indicated that both the K-Means algorithm and the Gaussian Mixture Model achieved an accuracy of 75%, demonstrating superior performance compared to the others. Additionally, experiments were carried out without prior definition of the number of clusters, using grid search to determine the best silhouette coefficient. The algorithms varied between 25 and 32 groups, suggesting that this range is appropriate for dividing the news database. | |
dc.identifier.uri | http://hdl.handle.net/20.500.14387/1523 | |
dc.language.iso | Português | |
dc.publisher.campi | Bambuí | |
dc.publisher.country | Brasil | |
dc.publisher.institution | Instituto Federal Minas Gerais - Campus Bambuí | |
dc.relation.url | https://github.com/mateuscruz22/soccer-news-clustering-analysis | |
dc.rights | Acesso aberto | |
dc.subject.keyword | Agrupamento de dados | |
dc.subject.keyword | Dados textuais | |
dc.subject.keyword | Notícias de futebol | |
dc.title | Análise de técnicas de agrupamento de dados para notícias de futebol | |
dc.type | Trabalho de Conclusão de Curso |