Dino2-DR: A Trustworthy and Explainable Vision Transformer for Cross-Domain Diabetic Retinopathy Grading

Cascone, Lucia; Di Biasi, Luigi; Genito, Giuseppe; Nappi, Michele

Lucia Cascone, Luigi Di Biasi, Giuseppe Genito, Michele Nappi; Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2025, pp. 595-604

Abstract

Deep learning models for diabetic retinopathy (DR) classification often exhibit performance degradation under domain shift, limiting their reliability in heterogeneous clinical environments. We introduce Dino2-DR, a robust and interpretable framework for DR severity grading. Built upon the self-supervised DINOv2 Vision Transformer, our approach is assessed under two complementary evaluation protocols that reflect realistic deployment conditions. For the Leave-One-Domain-Out protocol, we train six independent models, systematically withholding one fundus dataset (APTOS, DeepDRiD, FGADR, IDRiD, Messidor2, RLDR) for out-of-domain testing. This protocol achieves 85.73% AUC, 62.47% accuracy, and 50.15% F1-score averaged across all target domains, outperforming existing CNN and ViT-based approaches. The Fixed-Source Multi-Target (FSMT) protocol trains a single model on EyePACS + DDR and evaluates generalization to six external domains, yielding 87.83% AUC, 66.07% accuracy, and 50.46% F1-score. Beyond strong predictive performance, Dino2-DR prioritizes explainability and reliability: attention-rollout visualizations spotlight clinically relevant regions, and a light optional temperature-scaling step preserves a low calibration error (ECE less than 0.05) on every domain. An interactive interface allows clinicians to inspect predictions and associated evidence, facilitating potential adoption in routine clinical screening.

Related Material

[pdf]

[bibtex]

@InProceedings{Cascone_2025_ICCV, author = {Cascone, Lucia and Di Biasi, Luigi and Genito, Giuseppe and Nappi, Michele}, title = {Dino2-DR: A Trustworthy and Explainable Vision Transformer for Cross-Domain Diabetic Retinopathy Grading}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops}, month = {October}, year = {2025}, pages = {595-604} }