Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas

Dias, Cauê Silva

Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas

dc.contributor.advisor	Carmo, Natalia Camillo do
dc.contributor.author	Dias, Cauê Silva
dc.contributor.referee	Souza, Alvaro de
dc.contributor.referee	Faria, Felipe Lopes de
dc.date.accessioned	2026-06-08T12:18:05Z
dc.date.created	2026-05-06
dc.description	O diagnóstico da esclerose múltipla (EM) por meio de imagens de ressonância magnética (MRI) continua sendo um desafio devido à complexa distribuição espacial das lesões. Embora as Redes Neurais Convolucionais (CNNs) sejam eficazes na identificação de texturas locais, elas frequentemente não conseguem capturar as relações espaciais mais amplas entre regiões distantes do cérebro. Neste estudo, propomos e comparamos três arquiteturas de aprendizado profundo para a classificação automatizada da EM: um modelo de referência (baseline) ResNet18, um modelo híbrido CNN-ViT treinado com função de perda de entropia cruzada (cross-entropy loss) e uma variante CNN-ViT treinada com perda prototípica (prototypical loss) para aprendizado métrico. Para garantir uma avaliação confiável do desempenho, todos os modelos foram validados utilizando validação cruzada de 5 partições (5-fold cross-validation) e um conjunto de teste independente composto por 60 indivíduos. A arquitetura híbrida CNN-ViT alcançou 86,67% de acurácia e 90,00% de especificidade, superando consistentemente o modelo baseado apenas em CNN. A variante prototípica obteve 83,33% de acurácia e 80,00% de especificidade, oferecendo uma perspectiva complementar baseada em aprendizado métrico. Além disso, analisamos os mapas de atenção do modelo para interpretar seu processo de tomada de decisão, os quais destacaram tanto sua capacidade de focar em características neurológicas relevantes quanto suas limitações atuais relacionadas a tecidos não cerebrais. Esses resultados indicam que a combinação de mecanismos de autoatenção (self-attention) com camadas convolucionais melhora o desempenho da classificação e a interpretabilidade do modelo, fornecendo uma estrutura robusta para a detecção automatizada da esclerose múltipla, mesmo em conjuntos de dados limitados.
dc.description.abstract	The diagnosis of multiple sclerosis (MS) by magnetic resonance imaging (MRI) remains a challenge due to the complex spatial distribution of the lesions. Although Convolutional Neural Networks (CNNs) are effective at identifying local textures, they often fail to capture the broader spatial relationships between distant areas of the brain. In this study, we propose and compare three deep learning architectures for automated MS classification: a standalone ResNet18 baseline, a hybrid CNN-ViT model trained with cross-entropy loss, and a CNN-ViT variant trained with prototypical loss for metric learning. To ensure a reliable performance assessment, all models were validated using a 5-fold cross-validation and an independent test set of 60 subjects. The hybrid CNN-ViT architecture achieved 86.67% accuracy and 90.00% specificity, consistently outperforming the CNN-only baseline. The prototypical variant achieved 83.33% accuracy and 80.00% specificity, offering a complementary metric learning perspective. Additionally, we analyzed the model’s attention maps to interpret its decision-making process, which highlighted both its ability to focus on relevant neurological features and its current limitations with non-brain tissues. These results indicate that combining self-attention mechanisms with convolutional layers improves classification performance and interpretability, providing a robust framework for automated MS detection even with limited datasets.
dc.identifier.advisorOrcid	0009-0001-5481-6422
dc.identifier.authorOrcid	0009-0005-3377-9668
dc.identifier.refereeOrcid	0009-0006-5683-6394
dc.identifier.refereeOrcid	0009-0001-2707-6801
dc.identifier.uri	https://hdl.handle.net/20.500.14387/3172
dc.language.iso	eng
dc.publisher.campi	Bambuí
dc.publisher.country	Brasil
dc.publisher.institution	Instituto Federal de Minas Gerais
dc.publisher.program	Bacharelado em Engenharia da Computação
dc.rights	Acesso aberto
dc.subject.cnpq	Engenharias
dc.subject.keywords	Esclerose múltipla
dc.subject.keywords	Arquitetura híbrida
dc.subject.keywords	Transformador de visão (Vision Transformer)
dc.subject.keywords	Classificação de imagens por ressonância magnética (MRI)
dc.subject.keywords	Aprendizado métrico
dc.title	Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas
dc.title.alternative	EVALUATING DEEP LEARNING ARCHITECTURES FOR MULTIPLE SCLEROSIS: FROM CONVOLUTIONAL BASELINES TO HYBRID VIT AND PROTOTYPICAL NETWORKS
dc.type	Trabalho de Conclusão de Curso

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: TCC-ARTIGO-CAUE.pdf
Tamanho:: 1.99 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.72 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Trabalho de Conclusão de Curso