Análise de técnicas de agrupamento de dados para notícias de futebol

Cruz, Mateus Araújo

Análise de técnicas de agrupamento de dados para notícias de futebol

dc.contributor.advisor	Doutor Marcos Roberto Ribeiro
dc.contributor.author	Cruz, Mateus Araújo
dc.date.accessioned	2023-12-22T10:39:30Z
dc.date.available	2023-12-22T10:39:30Z
dc.date.issued	2023-11-30
dc.description	Agrupamento de dados é uma técnica de aprendizado não supervisionado que busca padrões ocultos em um conjunto de dados. Para isso, o conjunto é dividido em subgrupos com características semelhantes entre si e distintas dos demais grupos. O presente trabalho investiga as técnicas de agrupamento K-Means, Hierárquico, DBSCAN e mistura gaussiana, aplicadas em notícias do Campeonato Brasileiro de Futebol. A pesquisa tem como objetivo analisar o funcionamento das técnicas e proporcionar possibilidades de identificação de padrões nos dados. No estágio inicial, realizou-se o pré-processamento dos dados, incluindo tokenização e remoção de palavras de parada. As notícias foram representadas através da técnica TF-IDF. Em seguida, empregou-se a técnica de redução de dimensionalidade a partir da Análise Semântica Latente. O agrupamento das notícias foi realizado com o número de grupos definido em 21, representando a quantidade de times participantes no campeonato. Os resultados indicaram que tanto o algoritmo K-Means quanto o Modelo de Mistura Gaussiana alcançaram uma acurácia de 75%, demonstrando desempenho superior perante os demais. Adicionalmente, foram realizados experimentos sem a definição prévia do número de clusters, empregando busca em grade para determinar o melhor coeficiente de silhueta. Os algoritmos variaram entre 25 e 32 grupos, sugerindo que essa faixa é apropriada para a divisão da base de dados das notícias.
dc.description.abstract	Data clustering is an unsupervised learning technique that searches for hidden patterns in a set of data. To do this, the set is divided into subgroups with characteristics similar to each other and different from the other groups. The present work investigates the K-Means, hierarchical, DBSCAN and Gaussian mixture clustering techniques, applied to news from the Brazilian Football Championship. The research aims to analyze the functioning of the techniques and provide possibilities for identifying patterns in the data. In the initial stage, data pre-processing was carried out, including tokenization and removal of stop words. The news was represented using the TF-IDF technique. Next, the dimensionality reduction technique was used using Latent Semantic Analysis. The grouping of news was carried out with the number of groups set at 21, representing the number of teams participating in the championship. The results indicated that both the K-Means algorithm and the Gaussian Mixture Model achieved an accuracy of 75%, demonstrating superior performance compared to the others. Additionally, experiments were carried out without prior definition of the number of clusters, using grid search to determine the best silhouette coefficient. The algorithms varied between 25 and 32 groups, suggesting that this range is appropriate for dividing the news database.
dc.identifier.uri	https://hdl.handle.net/20.500.14387/1523
dc.language.iso	Português
dc.publisher.campi	Bambuí
dc.publisher.country	Brasil
dc.publisher.institution	Instituto Federal Minas Gerais - Campus Bambuí
dc.relation.url	https://github.com/mateuscruz22/soccer-news-clustering-analysis
dc.rights	Acesso aberto
dc.subject.keyword	Agrupamento de dados
dc.subject.keyword	Dados textuais
dc.subject.keyword	Notícias de futebol
dc.title	Análise de técnicas de agrupamento de dados para notícias de futebol
dc.type	Trabalho de Conclusão de Curso

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: 2023-2-TCC-Monografia-MateusAraujoCruz.pdf
Tamanho:: 4.89 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.79 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Trabalho de Conclusão de Curso