Avaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas

dc.contributor.advisorCarmo, Natalia Camillo do
dc.contributor.authorDias, Cauê Silva
dc.contributor.refereeSouza, Alvaro de
dc.contributor.refereeFaria, Felipe Lopes de
dc.date.accessioned2026-06-08T12:18:05Z
dc.date.created2026-05-06
dc.descriptionO diagnóstico da esclerose múltipla (EM) por meio de imagens de ressonância magnética (MRI) continua sendo um desafio devido à complexa distribuição espacial das lesões. Embora as Redes Neurais Convolucionais (CNNs) sejam eficazes na identificação de texturas locais, elas frequentemente não conseguem capturar as relações espaciais mais amplas entre regiões distantes do cérebro. Neste estudo, propomos e comparamos três arquiteturas de aprendizado profundo para a classificação automatizada da EM: um modelo de referência (baseline) ResNet18, um modelo híbrido CNN-ViT treinado com função de perda de entropia cruzada (cross-entropy loss) e uma variante CNN-ViT treinada com perda prototípica (prototypical loss) para aprendizado métrico. Para garantir uma avaliação confiável do desempenho, todos os modelos foram validados utilizando validação cruzada de 5 partições (5-fold cross-validation) e um conjunto de teste independente composto por 60 indivíduos. A arquitetura híbrida CNN-ViT alcançou 86,67% de acurácia e 90,00% de especificidade, superando consistentemente o modelo baseado apenas em CNN. A variante prototípica obteve 83,33% de acurácia e 80,00% de especificidade, oferecendo uma perspectiva complementar baseada em aprendizado métrico. Além disso, analisamos os mapas de atenção do modelo para interpretar seu processo de tomada de decisão, os quais destacaram tanto sua capacidade de focar em características neurológicas relevantes quanto suas limitações atuais relacionadas a tecidos não cerebrais. Esses resultados indicam que a combinação de mecanismos de autoatenção (self-attention) com camadas convolucionais melhora o desempenho da classificação e a interpretabilidade do modelo, fornecendo uma estrutura robusta para a detecção automatizada da esclerose múltipla, mesmo em conjuntos de dados limitados.
dc.description.abstractThe diagnosis of multiple sclerosis (MS) by magnetic resonance imaging (MRI) remains a challenge due to the complex spatial distribution of the lesions. Although Convolutional Neural Networks (CNNs) are effective at identifying local textures, they often fail to capture the broader spatial relationships between distant areas of the brain. In this study, we propose and compare three deep learning architectures for automated MS classification: a standalone ResNet18 baseline, a hybrid CNN-ViT model trained with cross-entropy loss, and a CNN-ViT variant trained with prototypical loss for metric learning. To ensure a reliable performance assessment, all models were validated using a 5-fold cross-validation and an independent test set of 60 subjects. The hybrid CNN-ViT architecture achieved 86.67% accuracy and 90.00% specificity, consistently outperforming the CNN-only baseline. The prototypical variant achieved 83.33% accuracy and 80.00% specificity, offering a complementary metric learning perspective. Additionally, we analyzed the model’s attention maps to interpret its decision-making process, which highlighted both its ability to focus on relevant neurological features and its current limitations with non-brain tissues. These results indicate that combining self-attention mechanisms with convolutional layers improves classification performance and interpretability, providing a robust framework for automated MS detection even with limited datasets.
dc.identifier.advisorOrcid0009-0001-5481-6422
dc.identifier.authorOrcid0009-0005-3377-9668
dc.identifier.refereeOrcid0009-0006-5683-6394
dc.identifier.refereeOrcid0009-0001-2707-6801
dc.identifier.urihttps://hdl.handle.net/20.500.14387/3172
dc.language.isoeng
dc.publisher.campiBambuí
dc.publisher.countryBrasil
dc.publisher.institutionInstituto Federal de Minas Gerais
dc.publisher.programBacharelado em Engenharia da Computação
dc.rightsAcesso aberto
dc.subject.cnpqEngenharias
dc.subject.keywordsEsclerose múltipla
dc.subject.keywordsArquitetura híbrida
dc.subject.keywordsTransformador de visão (Vision Transformer)
dc.subject.keywordsClassificação de imagens por ressonância magnética (MRI)
dc.subject.keywordsAprendizado métrico
dc.titleAvaliação de arquiteturas de deep learning para esclerose múltipla: de baselines convolucionais a redes híbridas vit e prototípicas
dc.title.alternativeEVALUATING DEEP LEARNING ARCHITECTURES FOR MULTIPLE SCLEROSIS: FROM CONVOLUTIONAL BASELINES TO HYBRID VIT AND PROTOTYPICAL NETWORKS
dc.typeTrabalho de Conclusão de Curso

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC-ARTIGO-CAUE.pdf
Tamanho:
1.99 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.72 KB
Formato:
Item-specific license agreed to upon submission
Descrição: