Il lavoro propone una metodologia per l'identificazione di anomalie nelle segnalazioni trimestrali delle compagnie di assicurazione, individuando discontinuità nei codici identificativi delle attività segnalate che influiscono negativamente sulla qualità delle statistiche prodotte dalla Banca d'Italia. Il modello proposto utilizza un approccio di tipo record linkage basato su algoritmi supervisionati di machine learning.
Il modello, stimato su dati relativi al periodo 2019-2022, fornisce risultati accurati e robusti per diversi livelli di qualità dei dati e categorie di attività: nella maggior parte dei casi il modello è in grado di identificare la quasi totalità delle anomalie, con una percentuale contenuta di dati erroneamente classificati come anomali (falsi positivi). Da giugno 2022 il modello è inserito nelle procedure ordinarie di controllo dei dati assicurativi e i riscontri finora pervenuti ne confermano l'efficacia.
Pubblicato nel 2024 in: Quality & Quantity, v. 58, pp. 4181–4205.