Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina

Data

Autor(es)

Orientado(es)
Mestre Everthon dos Santos Valadão

Título da Revista

ISSN da Revista

Título de Volume

Editor

Abstract

The rapid growth of Brazilian e-commerce — particularly within the supermarket sector — has intensified the demand for automated tools capable of comparing products across multiple platforms. In this context, textual product matching emerges as a central challenge due to the absence of unique identifiers and the high heterogeneity of product descriptions, which are frequently noisy, semi-structured, and inconsistent. Therefore, this study justifies the investigation of Natural Language Processing (NLP) and machine learning techniques capable of handling real-world data environments, aiming to improve Entity Resolution in the grocery retail domain. The objective of this work was to perform a comparative analysis of the performance of six textual matching techniques — three classical (Levenshtein, Jaccard, and Jaro-Winkler), two vector-based (Bag-of-Words and TF-IDF with Cosine Similarity), and one semantic approach (SBERT) — applied to a real dataset collected via web scraping from four distinct e-commerce sources. The methodology encompassed data collection, preprocessing, implementation of the techniques, and quantitative evalua- tion based on Precision, Recall, and F1-Score, validated through a manually generated ground truth. The results showed that classical and vector-based techniques achieved superior performance for exact matching tasks, while the semantic SBERT model presented limitations, mainly due to the absence of fine-tuning and the occurrence of “semantic hallucinations,” as evidenced in the results. Consequently, the initial hypothesis — that the semantic technique would be the most effective — was partially refuted, although showing promising directions for future adaptations. It is concluded that all objectives were successfully achieved, and that lexical and vector-based methods remain more suitable for precise matching problems in supermarket datasets. The main contributions include the creation of a real dataset, a replicable practical pipeline, and a critical evaluation of the methods — offering valuable insights for hybrid solutions and future research involving domain adaptation.


Resumo

O crescimento acelerado do comércio eletrônico brasileiro, especialmente no setor de supermercados, tem impulsionado a necessidade de ferramentas automatizadas para comparação de produtos entre múltiplas plataformas. Nesse cenário, a correspondência textual de produtos torna-se um desafio central, devido à ausência de identificadores únicos e à heterogeneidade das descrições — frequentemente ruidosas, semiestruturadas e inconsistentes. Assim, justificou-se a investigação de técnicas de Processamento de Linguagem Natural (PLN) e aprendizado de máquina, capazes de lidar com esse ambiente real de dados, visando aprimorar a Resolução de Entidades (Entity Resolution) no domínio do varejo alimentar. O objetivo deste trabalho foi analisar comparativamente o desempenho de seis técnicas de correspondência textual — três clássicas (Levenshtein, Jaccard e Jaro-Winkler), duas vetoriais (Bag-of-Words e TF-IDF com Similaridade de Cossenos) e uma semântica (SBERT) — aplicadas a um dataset real coletado via web scraping em quatro fontes distintas de e-commerce. O pipeline envolveu coleta, pré-processamento e aplicação das técnicas, seguido da avaliação quantitativa baseada em Precisão, Revocação e F1-Score, com validação por ground truth gerado. Os resultados indicaram que as técnicas clássicas e vetoriais obtiveram desempenho superior no matching exato, enquanto o modelo semântico SBERT apresentou limitações, sobretudo pela ausência de fine-tuning e pela ocorrência de alucinações semânticas, como demonstrado na análise de resultados. Dessa forma, a hipótese inicial — de que a técnica semântica seria a mais eficaz — foi parcialmente refutada, embora apontando caminhos promissores para adaptações futuras. Conclui-se que os objetivos foram plenamente alcançados e que os métodos léxicos e vetoriais ainda são mais adequados para problemas de matching preciso em dados de supermercado. As principais contribuições incluem a criação de um dataset real, um pipeline replicável de análise prática e a avaliação crítica das técnicas, fornecendo subsídios para soluções híbridas e estudos futuros com adaptação de domínio.

Palavras-chave

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por