Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas
| dc.contributor.advisor | Carmo, Natalia Camillo do | |
| dc.contributor.author | Dias, Cauê Silva | |
| dc.contributor.referee | Souza, Alvaro de | |
| dc.contributor.referee | Faria, Felipe Lopes de | |
| dc.date.accessioned | 2026-06-08T12:18:05Z | |
| dc.date.created | 2026-05-06 | |
| dc.description | O diagnóstico da esclerose múltipla (EM) por meio de imagens de ressonância magnética (MRI) continua sendo um desafio devido à complexa distribuição espacial das lesões. Embora as Redes Neurais Convolucionais (CNNs) sejam eficazes na identificação de texturas locais, elas frequentemente não conseguem capturar as relações espaciais mais amplas entre regiões distantes do cérebro. Neste estudo, propomos e comparamos três arquiteturas de aprendizado profundo para a classificação automatizada da EM: um modelo de referência (baseline) ResNet18, um modelo híbrido CNN-ViT treinado com função de perda de entropia cruzada (cross-entropy loss) e uma variante CNN-ViT treinada com perda prototípica (prototypical loss) para aprendizado métrico. Para garantir uma avaliação confiável do desempenho, todos os modelos foram validados utilizando validação cruzada de 5 partições (5-fold cross-validation) e um conjunto de teste independente composto por 60 indivíduos. A arquitetura híbrida CNN-ViT alcançou 86,67% de acurácia e 90,00% de especificidade, superando consistentemente o modelo baseado apenas em CNN. A variante prototípica obteve 83,33% de acurácia e 80,00% de especificidade, oferecendo uma perspectiva complementar baseada em aprendizado métrico. Além disso, analisamos os mapas de atenção do modelo para interpretar seu processo de tomada de decisão, os quais destacaram tanto sua capacidade de focar em características neurológicas relevantes quanto suas limitações atuais relacionadas a tecidos não cerebrais. Esses resultados indicam que a combinação de mecanismos de autoatenção (self-attention) com camadas convolucionais melhora o desempenho da classificação e a interpretabilidade do modelo, fornecendo uma estrutura robusta para a detecção automatizada da esclerose múltipla, mesmo em conjuntos de dados limitados. | |
| dc.description.abstract | The diagnosis of multiple sclerosis (MS) by magnetic resonance imaging (MRI) remains a challenge due to the complex spatial distribution of the lesions. Although Convolutional Neural Networks (CNNs) are effective at identifying local textures, they often fail to capture the broader spatial relationships between distant areas of the brain. In this study, we propose and compare three deep learning architectures for automated MS classification: a standalone ResNet18 baseline, a hybrid CNN-ViT model trained with cross-entropy loss, and a CNN-ViT variant trained with prototypical loss for metric learning. To ensure a reliable performance assessment, all models were validated using a 5-fold cross-validation and an independent test set of 60 subjects. The hybrid CNN-ViT architecture achieved 86.67% accuracy and 90.00% specificity, consistently outperforming the CNN-only baseline. The prototypical variant achieved 83.33% accuracy and 80.00% specificity, offering a complementary metric learning perspective. Additionally, we analyzed the model’s attention maps to interpret its decision-making process, which highlighted both its ability to focus on relevant neurological features and its current limitations with non-brain tissues. These results indicate that combining self-attention mechanisms with convolutional layers improves classification performance and interpretability, providing a robust framework for automated MS detection even with limited datasets. | |
| dc.identifier.advisorOrcid | 0009-0001-5481-6422 | |
| dc.identifier.authorOrcid | 0009-0005-3377-9668 | |
| dc.identifier.refereeOrcid | 0009-0006-5683-6394 | |
| dc.identifier.refereeOrcid | 0009-0001-2707-6801 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.14387/3172 | |
| dc.language.iso | eng | |
| dc.publisher.campi | Bambuí | |
| dc.publisher.country | Brasil | |
| dc.publisher.institution | Instituto Federal de Minas Gerais | |
| dc.publisher.program | Bacharelado em Engenharia da Computação | |
| dc.rights | Acesso aberto | |
| dc.subject.cnpq | Engenharias | |
| dc.subject.keywords | Esclerose múltipla | |
| dc.subject.keywords | Arquitetura híbrida | |
| dc.subject.keywords | Transformador de visão (Vision Transformer) | |
| dc.subject.keywords | Classificação de imagens por ressonância magnética (MRI) | |
| dc.subject.keywords | Aprendizado métrico | |
| dc.title | Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas | |
| dc.title.alternative | EVALUATING DEEP LEARNING ARCHITECTURES FOR MULTIPLE SCLEROSIS: FROM CONVOLUTIONAL BASELINES TO HYBRID VIT AND PROTOTYPICAL NETWORKS | |
| dc.type | Trabalho de Conclusão de Curso |
