La radiologia medica, DOI: 10.1007/s11547-025-02153-1
Background
L’intelligenza artificiale (AI) sta assumendo un ruolo sempre più rilevante nella radiologia muscolo-scheletrica, con risultati promettenti nell’identificazione automatica delle fratture. Tuttavia, nella pratica clinica quotidiana, una quota significativa degli esami è rappresentata dai controlli eseguiti per il follow-up, che contengono informazioni clinicamente rilevanti sul decorso della frattura. Nonostante ciò, il loro contributo all’addestramento dei modelli AI è ancora poco esplorato.
Lo studio in oggetto analizza se l’inclusione di radiografie di follow-up possa migliorare le performance dei modelli di AI nella diagnosi delle fratture del polso in età pediatrica.
Materiali e Metodi
Gli Autori hanno utilizzato il dataset pubblico GRAZPEDWRI-DX, che comprende 20.327 radiografie del polso pediatrico provenienti da 6.091 pazienti, acquisite tra il 2008 e il 2018. Il dataset include esami eseguiti al primo accesso e successivi controlli, sia in presenza sia in assenza di apparecchio gessato.
A partire da questo database sono stati costruiti quattro diversi set di addestramento: uno basato esclusivamente sulle radiografie iniziali e tre ottenuti aggiungendo progressivamente le immagini di follow-up (con e senza gesso).
Sono stati quindi addestrati e confrontati due modelli di deep learning:
- EfficientNet, utilizzato per la classificazione binaria (presenza/assenza di frattura)
- YOLOv8, utilizzato per la localizzazione delle fratture tramite bounding box
Le prestazioni sono state valutate su un set indipendente di 500 radiografie iniziali, non utilizzate nella fase di training, mediante le principali metriche di classificazione e object detection.
Risultati principali
Per quanto riguarda i modelli di classificazione (EfficientNet), l’inclusione delle radiografie di follow-up non ha determinato differenze statisticamente significative nelle performance diagnostiche. Precision, recall, accuracy e F1 score risultano infatti sovrapponibili tra i diversi dataset di training, indicando l’assenza di un beneficio reale nell’aggiunta dei controlli.
Diversamente, nei modelli di object detection (YOLOv8) si è osservato un miglioramento delle performance nella localizzazione delle fratture quando vengono inclusi i follow-up. In particolare, si è osservato un incremento significativo dell’AP50, mentre il F1 score ha mostrato un miglioramento più contenuto e vicino alla soglia di significatività. Le altre metriche (AP75, AP50-95 e recall) non hanno evidenziato differenze rilevanti tra i diversi dataset.
Il beneficio è apparso più evidente quando nel training venivano inclusi sia i follow-up con gesso sia quelli senza gesso, suggerendo che una maggiore variabilità dei dati potesse contribuire a migliorare le capacità di localizzazione del modello.
Conclusioni
I risultati hanno indicato che l’inclusione delle radiografie di follow-up non migliora la capacità dei modelli AI di identificare la presenza di frattura nelle radiografie iniziali, che rappresentano il principale contesto clinico di utilizzo.
Al contrario, l’aggiunta di dati longitudinali può favorire una migliore localizzazione della frattura nei modelli di object detection, probabilmente grazie a una maggiore eterogeneità delle immagini utilizzate per l’addestramento.
In termini applicativi, questi dati suggeriscono che l’utilizzo delle radiografie di follow-up nell’addestramento dei modelli AI debba essere attentamente bilanciato. Il loro impiego appare poco giustificato per task di classificazione, mentre può essere considerato in applicazioni in cui la localizzazione della lesione rappresenta un obiettivo prioritario.