Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina

dc.contributor.advisorMestre Everthon dos Santos Valadão
dc.contributor.authorRezende Neto, Rafael Augusto de
dc.contributor.coadvisorSilva, Diego Mello da
dc.contributor.refereeFerreira, Bruno
dc.contributor.refereeRodrigues, Walace de Almeida
dc.contributor.refereeOliveira, Mário Luiz Rodrigues
dc.date.accessioned2025-12-16T11:53:39Z
dc.date.created2025-12-10
dc.descriptionO crescimento acelerado do comércio eletrônico brasileiro, especialmente no setor de supermercados, tem impulsionado a necessidade de ferramentas automatizadas para comparação de produtos entre múltiplas plataformas. Nesse cenário, a correspondência textual de produtos torna-se um desafio central, devido à ausência de identificadores únicos e à heterogeneidade das descrições — frequentemente ruidosas, semiestruturadas e inconsistentes. Assim, justificou-se a investigação de técnicas de Processamento de Linguagem Natural (PLN) e aprendizado de máquina, capazes de lidar com esse ambiente real de dados, visando aprimorar a Resolução de Entidades (Entity Resolution) no domínio do varejo alimentar. O objetivo deste trabalho foi analisar comparativamente o desempenho de seis técnicas de correspondência textual — três clássicas (Levenshtein, Jaccard e Jaro-Winkler), duas vetoriais (Bag-of-Words e TF-IDF com Similaridade de Cossenos) e uma semântica (SBERT) — aplicadas a um dataset real coletado via web scraping em quatro fontes distintas de e-commerce. O pipeline envolveu coleta, pré-processamento e aplicação das técnicas, seguido da avaliação quantitativa baseada em Precisão, Revocação e F1-Score, com validação por ground truth gerado. Os resultados indicaram que as técnicas clássicas e vetoriais obtiveram desempenho superior no matching exato, enquanto o modelo semântico SBERT apresentou limitações, sobretudo pela ausência de fine-tuning e pela ocorrência de alucinações semânticas, como demonstrado na análise de resultados. Dessa forma, a hipótese inicial — de que a técnica semântica seria a mais eficaz — foi parcialmente refutada, embora apontando caminhos promissores para adaptações futuras. Conclui-se que os objetivos foram plenamente alcançados e que os métodos léxicos e vetoriais ainda são mais adequados para problemas de matching preciso em dados de supermercado. As principais contribuições incluem a criação de um dataset real, um pipeline replicável de análise prática e a avaliação crítica das técnicas, fornecendo subsídios para soluções híbridas e estudos futuros com adaptação de domínio.
dc.description.abstractThe rapid growth of Brazilian e-commerce — particularly within the supermarket sector — has intensified the demand for automated tools capable of comparing products across multiple platforms. In this context, textual product matching emerges as a central challenge due to the absence of unique identifiers and the high heterogeneity of product descriptions, which are frequently noisy, semi-structured, and inconsistent. Therefore, this study justifies the investigation of Natural Language Processing (NLP) and machine learning techniques capable of handling real-world data environments, aiming to improve Entity Resolution in the grocery retail domain. The objective of this work was to perform a comparative analysis of the performance of six textual matching techniques — three classical (Levenshtein, Jaccard, and Jaro-Winkler), two vector-based (Bag-of-Words and TF-IDF with Cosine Similarity), and one semantic approach (SBERT) — applied to a real dataset collected via web scraping from four distinct e-commerce sources. The methodology encompassed data collection, preprocessing, implementation of the techniques, and quantitative evalua- tion based on Precision, Recall, and F1-Score, validated through a manually generated ground truth. The results showed that classical and vector-based techniques achieved superior performance for exact matching tasks, while the semantic SBERT model presented limitations, mainly due to the absence of fine-tuning and the occurrence of “semantic hallucinations,” as evidenced in the results. Consequently, the initial hypothesis — that the semantic technique would be the most effective — was partially refuted, although showing promising directions for future adaptations. It is concluded that all objectives were successfully achieved, and that lexical and vector-based methods remain more suitable for precise matching problems in supermarket datasets. The main contributions include the creation of a real dataset, a replicable practical pipeline, and a critical evaluation of the methods — offering valuable insights for hybrid solutions and future research involving domain adaptation.
dc.identifier.advisorOrcid0000-0003-2990-6773
dc.identifier.authorOrcid0009-0000-9477-4354
dc.identifier.urihttps://hdl.handle.net/20.500.14387/2800
dc.language.isopor
dc.publisher.campiFormiga
dc.publisher.countryBrasil
dc.publisher.institutionInstituto Federal de Educação, Ciência e Tecnologia de Minas Gerais - Campus Formiga
dc.publisher.programBacharelado em Ciência da Computação
dc.rightsAcesso aberto
dc.subject.cnpqCiências Exatas e da Terra
dc.subject.keywordsResolução de Entidades
dc.subject.keywordsProcessamento de Linguagem Natural (PLN)
dc.subject.keywordsWeb Scraping
dc.titleAnálise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina
dc.typeTrabalho de Conclusão de Curso

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Monografia_TCC_Rafael_revisada.pdf
Tamanho:
1.37 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.72 KB
Formato:
Item-specific license agreed to upon submission
Descrição: