Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina
| dc.contributor.advisor | Mestre Everthon dos Santos Valadão | |
| dc.contributor.author | Rezende Neto, Rafael Augusto de | |
| dc.contributor.coadvisor | Silva, Diego Mello da | |
| dc.contributor.referee | Ferreira, Bruno | |
| dc.contributor.referee | Rodrigues, Walace de Almeida | |
| dc.contributor.referee | Oliveira, Mário Luiz Rodrigues | |
| dc.date.accessioned | 2025-12-16T11:53:39Z | |
| dc.date.created | 2025-12-10 | |
| dc.description | O crescimento acelerado do comércio eletrônico brasileiro, especialmente no setor de supermercados, tem impulsionado a necessidade de ferramentas automatizadas para comparação de produtos entre múltiplas plataformas. Nesse cenário, a correspondência textual de produtos torna-se um desafio central, devido à ausência de identificadores únicos e à heterogeneidade das descrições — frequentemente ruidosas, semiestruturadas e inconsistentes. Assim, justificou-se a investigação de técnicas de Processamento de Linguagem Natural (PLN) e aprendizado de máquina, capazes de lidar com esse ambiente real de dados, visando aprimorar a Resolução de Entidades (Entity Resolution) no domínio do varejo alimentar. O objetivo deste trabalho foi analisar comparativamente o desempenho de seis técnicas de correspondência textual — três clássicas (Levenshtein, Jaccard e Jaro-Winkler), duas vetoriais (Bag-of-Words e TF-IDF com Similaridade de Cossenos) e uma semântica (SBERT) — aplicadas a um dataset real coletado via web scraping em quatro fontes distintas de e-commerce. O pipeline envolveu coleta, pré-processamento e aplicação das técnicas, seguido da avaliação quantitativa baseada em Precisão, Revocação e F1-Score, com validação por ground truth gerado. Os resultados indicaram que as técnicas clássicas e vetoriais obtiveram desempenho superior no matching exato, enquanto o modelo semântico SBERT apresentou limitações, sobretudo pela ausência de fine-tuning e pela ocorrência de alucinações semânticas, como demonstrado na análise de resultados. Dessa forma, a hipótese inicial — de que a técnica semântica seria a mais eficaz — foi parcialmente refutada, embora apontando caminhos promissores para adaptações futuras. Conclui-se que os objetivos foram plenamente alcançados e que os métodos léxicos e vetoriais ainda são mais adequados para problemas de matching preciso em dados de supermercado. As principais contribuições incluem a criação de um dataset real, um pipeline replicável de análise prática e a avaliação crítica das técnicas, fornecendo subsídios para soluções híbridas e estudos futuros com adaptação de domínio. | |
| dc.description.abstract | The rapid growth of Brazilian e-commerce — particularly within the supermarket sector — has intensified the demand for automated tools capable of comparing products across multiple platforms. In this context, textual product matching emerges as a central challenge due to the absence of unique identifiers and the high heterogeneity of product descriptions, which are frequently noisy, semi-structured, and inconsistent. Therefore, this study justifies the investigation of Natural Language Processing (NLP) and machine learning techniques capable of handling real-world data environments, aiming to improve Entity Resolution in the grocery retail domain. The objective of this work was to perform a comparative analysis of the performance of six textual matching techniques — three classical (Levenshtein, Jaccard, and Jaro-Winkler), two vector-based (Bag-of-Words and TF-IDF with Cosine Similarity), and one semantic approach (SBERT) — applied to a real dataset collected via web scraping from four distinct e-commerce sources. The methodology encompassed data collection, preprocessing, implementation of the techniques, and quantitative evalua- tion based on Precision, Recall, and F1-Score, validated through a manually generated ground truth. The results showed that classical and vector-based techniques achieved superior performance for exact matching tasks, while the semantic SBERT model presented limitations, mainly due to the absence of fine-tuning and the occurrence of “semantic hallucinations,” as evidenced in the results. Consequently, the initial hypothesis — that the semantic technique would be the most effective — was partially refuted, although showing promising directions for future adaptations. It is concluded that all objectives were successfully achieved, and that lexical and vector-based methods remain more suitable for precise matching problems in supermarket datasets. The main contributions include the creation of a real dataset, a replicable practical pipeline, and a critical evaluation of the methods — offering valuable insights for hybrid solutions and future research involving domain adaptation. | |
| dc.identifier.advisorOrcid | 0000-0003-2990-6773 | |
| dc.identifier.authorOrcid | 0009-0000-9477-4354 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.14387/2800 | |
| dc.language.iso | por | |
| dc.publisher.campi | Formiga | |
| dc.publisher.country | Brasil | |
| dc.publisher.institution | Instituto Federal de Educação, Ciência e Tecnologia de Minas Gerais - Campus Formiga | |
| dc.publisher.program | Bacharelado em Ciência da Computação | |
| dc.rights | Acesso aberto | |
| dc.subject.cnpq | Ciências Exatas e da Terra | |
| dc.subject.keywords | Resolução de Entidades | |
| dc.subject.keywords | Processamento de Linguagem Natural (PLN) | |
| dc.subject.keywords | Web Scraping | |
| dc.title | Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina | |
| dc.type | Trabalho de Conclusão de Curso |
