N. 612 - Un'architettura di reti neurali per il controllo dei dati

Go to the english version Cerca nel sito

di Claudia Biancotti, Leandro D'Aurizio e Raffaele Tartaglia Polcinifebbraio 2007

Le stime campionarie possono risentire in modo rilevante degli errori contenuti nei dati raccolti. L’impatto degli errori è in generale imprevedibile e particolarmente importante in caso di variabili quantitative, misurate in livelli.
Questa ricerca propone un metodo di individuazione degli errori basato sulle reti neurali. Si tratta di uno strumento matematico di riconoscimento delle forme che richiede ampie capacità di calcolo numerico ma poche ipotesi di partenza: in modo paragonabile al comportamento del cervello, è in grado di apprendere da esempi forniti e di riconoscere successivamente le stesse caratteristiche su dati nuovi.
L’applicazione è stata condotta con riferimento ai dati rilevati nelle indagini sulle imprese della Banca d’Italia per il 2003. In particolare sono state costruite tre reti neurali, finalizzate all’individuazione degli errori per gruppi di variabili relativi a occupazione, fatturato e investimenti. I dati campionari sono stati perturbati casualmente, rispecchiando le forme di errore più frequenti riscontrate utilizzando le esistenti procedure di controllo; i dati così ottenuti sono stati sottoposti alle reti neurali in fase di apprendimento, segnalando i casi in cui ognuno di essi conteneva errori. I dati sottoposti alle reti sono stati integrati con alcune trasformazioni delle variabili d’interesse che facilitano l’identificazione degli errori da parte delle reti (ad esempio, oltre ai dati sulle ore lavorate e sul numero degli addetti, inclusi nell’indagine, sono stati forniti anche i dati sulle ore per addetto).
Il funzionamento delle reti così ottenute è stato verificato su dati indipendenti, sui quali cioè le reti non erano state addestrate. La percentuale di successo nell’individuazione di dati errati è risultata in media pari al 90 e all’84 per cento per le variabili relative, rispettivamente, a occupazione e fatturato. Per le variabili relative agli investimenti i risultati sono stati relativamente meno soddisfacenti, con una percentuale di successo pari a circa il 70 per cento, risentendo presumibilmente della maggiore erraticità del fenomeno misurato.
L'uso delle reti neurali è stato infine confrontato con una tradizionale tecnica di classificazione statistica, basata sul modello logistico lineare, utilizzando le stesse variabili sottoposte alla rete neurale. Per tutti i gruppi di variabili considerate, la rete neurale mostra percentuali di successo assai più elevate.

Testo della pubblicazione