Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina
Data
Autor(es)
Orientado(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
O crescimento acelerado do comércio eletrônico brasileiro, especialmente no setor de supermercados, tem impulsionado a necessidade de ferramentas automatizadas para comparação de produtos entre múltiplas plataformas. Nesse cenário, a correspondência textual de produtos torna-se um desafio central, devido à ausência de identificadores únicos e à heterogeneidade das descrições — frequentemente ruidosas, semiestruturadas e inconsistentes. Assim, justificou-se a investigação de técnicas de Processamento de Linguagem Natural (PLN) e aprendizado de máquina, capazes de lidar com esse ambiente real de dados, visando aprimorar a Resolução de Entidades (Entity Resolution) no domínio do varejo alimentar. O objetivo deste trabalho foi analisar comparativamente o desempenho de seis técnicas de correspondência textual — três clássicas (Levenshtein, Jaccard e Jaro-Winkler), duas vetoriais (Bag-of-Words e TF-IDF com Similaridade de Cossenos) e uma semântica (SBERT) — aplicadas a um dataset real coletado via web scraping em quatro fontes distintas de e-commerce. O pipeline envolveu coleta, pré-processamento e aplicação das técnicas, seguido da avaliação quantitativa baseada em Precisão, Revocação e F1-Score, com validação por ground truth gerado. Os resultados indicaram que as técnicas clássicas e vetoriais obtiveram desempenho superior no matching exato, enquanto o modelo semântico SBERT apresentou limitações, sobretudo pela ausência de fine-tuning e pela ocorrência de alucinações semânticas, como demonstrado na análise de resultados. Dessa forma, a hipótese inicial — de que a técnica semântica seria a mais eficaz — foi parcialmente refutada, embora apontando caminhos promissores para adaptações futuras. Conclui-se que os objetivos foram plenamente alcançados e que os métodos léxicos e vetoriais ainda são mais adequados para problemas de matching preciso em dados de supermercado. As principais contribuições incluem a criação de um dataset real, um pipeline replicável de análise prática e a avaliação crítica das técnicas, fornecendo subsídios para soluções híbridas e estudos futuros com adaptação de domínio.
