Análise de técnicas de agrupamento de dados para notícias de futebol

dc.contributor.advisorDoutor Marcos Roberto Ribeiro
dc.contributor.authorCRUZ, Mateus Araújo
dc.date.accessioned2023-12-22T10:39:30Z
dc.date.available2023-12-22T10:39:30Z
dc.date.issued2023-11-30
dc.description.abstractAgrupamento de dados é uma técnica de aprendizado não supervisionado que busca padrões ocultos em um conjunto de dados. Para isso, o conjunto é dividido em subgrupos com características semelhantes entre si e distintas dos demais grupos. O presente trabalho investiga as técnicas de agrupamento K-Means, Hierárquico, DBSCAN e mistura gaussiana, aplicadas em notícias do Campeonato Brasileiro de Futebol. A pesquisa tem como objetivo analisar o funcionamento das técnicas e proporcionar possibilidades de identificação de padrões nos dados. No estágio inicial, realizou-se o pré-processamento dos dados, incluindo tokenização e remoção de palavras de parada. As notícias foram representadas através da técnica TF-IDF. Em seguida, empregou-se a técnica de redução de dimensionalidade a partir da Análise Semântica Latente. O agrupamento das notícias foi realizado com o número de grupos definido em 21, representando a quantidade de times participantes no campeonato. Os resultados indicaram que tanto o algoritmo K-Means quanto o Modelo de Mistura Gaussiana alcançaram uma acurácia de 75%, demonstrando desempenho superior perante os demais. Adicionalmente, foram realizados experimentos sem a definição prévia do número de clusters, empregando busca em grade para determinar o melhor coeficiente de silhueta. Os algoritmos variaram entre 25 e 32 grupos, sugerindo que essa faixa é apropriada para a divisão da base de dados das notícias.
dc.description.abstract1Data clustering is an unsupervised learning technique that searches for hidden patterns in a set of data. To do this, the set is divided into subgroups with characteristics similar to each other and different from the other groups. The present work investigates the K-Means, hierarchical, DBSCAN and Gaussian mixture clustering techniques, applied to news from the Brazilian Football Championship. The research aims to analyze the functioning of the techniques and provide possibilities for identifying patterns in the data. In the initial stage, data pre-processing was carried out, including tokenization and removal of stop words. The news was represented using the TF-IDF technique. Next, the dimensionality reduction technique was used using Latent Semantic Analysis. The grouping of news was carried out with the number of groups set at 21, representing the number of teams participating in the championship. The results indicated that both the K-Means algorithm and the Gaussian Mixture Model achieved an accuracy of 75%, demonstrating superior performance compared to the others. Additionally, experiments were carried out without prior definition of the number of clusters, using grid search to determine the best silhouette coefficient. The algorithms varied between 25 and 32 groups, suggesting that this range is appropriate for dividing the news database.
dc.identifier.urihttp://hdl.handle.net/20.500.14387/1523
dc.language.isoPortuguês
dc.publisher.campiBambuí
dc.publisher.countryBrasil
dc.publisher.institutionInstituto Federal Minas Gerais - Campus Bambuí
dc.relation.urlhttps://github.com/mateuscruz22/soccer-news-clustering-analysis
dc.rightsAcesso aberto
dc.subject.keywordAgrupamento de dados
dc.subject.keywordDados textuais
dc.subject.keywordNotícias de futebol
dc.titleAnálise de técnicas de agrupamento de dados para notícias de futebol
dc.typeTrabalho de Conclusão de Curso
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
2023-2-TCC-Monografia-MateusAraujoCruz.pdf
Tamanho:
4.89 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.79 KB
Formato:
Item-specific license agreed to upon submission
Descrição: