Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina

Rezende Neto, Rafael Augusto de

Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina

Arquivos

Primário Monografia_TCC_Rafael_revisada.pdf (1.37 MB)

Autor(es)

Rezende Neto, Rafael Augusto de

Orientado(es)

Mestre Everthon dos Santos Valadão

Resumo

O crescimento acelerado do comércio eletrônico brasileiro, especialmente no setor de supermercados, tem impulsionado a necessidade de ferramentas automatizadas para comparação de produtos entre múltiplas plataformas. Nesse cenário, a correspondência textual de produtos torna-se um desafio central, devido à ausência de identificadores únicos e à heterogeneidade das descrições — frequentemente ruidosas, semiestruturadas e inconsistentes. Assim, justificou-se a investigação de técnicas de Processamento de Linguagem Natural (PLN) e aprendizado de máquina, capazes de lidar com esse ambiente real de dados, visando aprimorar a Resolução de Entidades (Entity Resolution) no domínio do varejo alimentar. O objetivo deste trabalho foi analisar comparativamente o desempenho de seis técnicas de correspondência textual — três clássicas (Levenshtein, Jaccard e Jaro-Winkler), duas vetoriais (Bag-of-Words e TF-IDF com Similaridade de Cossenos) e uma semântica (SBERT) — aplicadas a um dataset real coletado via web scraping em quatro fontes distintas de e-commerce. O pipeline envolveu coleta, pré-processamento e aplicação das técnicas, seguido da avaliação quantitativa baseada em Precisão, Revocação e F1-Score, com validação por ground truth gerado. Os resultados indicaram que as técnicas clássicas e vetoriais obtiveram desempenho superior no matching exato, enquanto o modelo semântico SBERT apresentou limitações, sobretudo pela ausência de fine-tuning e pela ocorrência de alucinações semânticas, como demonstrado na análise de resultados. Dessa forma, a hipótese inicial — de que a técnica semântica seria a mais eficaz — foi parcialmente refutada, embora apontando caminhos promissores para adaptações futuras. Conclui-se que os objetivos foram plenamente alcançados e que os métodos léxicos e vetoriais ainda são mais adequados para problemas de matching preciso em dados de supermercado. As principais contribuições incluem a criação de um dataset real, um pipeline replicável de análise prática e a avaliação crítica das técnicas, fornecendo subsídios para soluções híbridas e estudos futuros com adaptação de domínio.

URI

https://hdl.handle.net/20.500.14387/2800

Coleções

Trabalho de Conclusão de Curso

Página do item completo

Análise comparativa de técnicas de correspondência textual de produto: coleta de dados com web scraping e análise baseada em PLN e aprendizado de máquina

Arquivos

Data

Autor(es)

Orientado(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

Palavras-chave

Citação

URI

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por