N. 1018 - Tecniche di abbinamento statistico e misure di incertezza nell'integrazione di fonti di dati su reddito e consumi

Go to the english version Cerca nel sito

di Pier Luigi Conti, Daniela Marella e Andrea Neri luglio 2015

La misurazione del risparmio delle famiglie attraverso indagini campionarie avviene normalmente in modo indiretto come differenza fra il reddito disponibile della famiglia e i suoi consumi. È raro però disporre di indagini in grado di fornire dati di alta qualità sia sul reddito sia sui consumi. Una soluzione spesso utilizzata è quella di creare un database sintetico tramite tecniche di statistical matching di due indagini diverse. In genere, l'aggancio avviene stimando in un archivio la distribuzione di una variabile (ad esempio i consumi) condizionatamente a un insieme di variabili comuni e poi imputando i valori nell'altro archivio attraverso una qualche tecnica che minimizzi una certa misura di distanza. Gli esercizi di matching realizzati in letteratura sono basati sull'ipotesi (non verificabile) che le informazioni comuni ai due archivi (di solito, variabili socio-demografiche) siano sufficienti a ricostruire la distribuzione congiunta (conditional indipendence assumption, CIA).

Il lavoro propone una nuova metodologia che non richiede la validità di  tale ipotesi. Questa metodologia viene illustrata utilizzando l’indagine sui bilanci delle famiglie della Banca d’Italia (IBF)  e quella sui consumi dell’Istat. Si assume, anche sulla base di precedenti ricerche, che i consumi siano stimati in modo più accurato (ad esclusione di quelli durevoli) nei dati Istat e, si sfrutta il fatto che l'IBF, contenendo anche domande sui consumi totali della famiglia, permette di stimare l'as-sociazione fra le due grandezze.

Si propone una misura dell’incertezza associata all’integrazione di indagini diverse e si mostra come sia possibile ridurla attraverso l’uso di informazioni ausiliarie. In particolare, vengono introdotti vincoli sul valore minimo e massimo delle propensioni al consumo delle famiglie. In tal modo, viene ridotto il numero di possibili distribuzioni congiunte reddito/consumi fra cui scegliere. Il lavoro descrive quindi un metodo per selezionare una distribuzione congiunta fra quelle possibili utilizzando un algoritmo IPF (iterative proportional fitting).

Una volta stimata la distribuzione congiunta del reddito e del consumo, è possibile imputare la spesa per consumi a ciascuna famiglia intervistata in IBF. Il metodo permette in tal modo di non modificare significativamente l’associazione fra il reddito e i consumi osservata nei dati originari dell’indagine IBF.

Pubblicato nel 2017 in: Statistical Methods & Applications,v. 26, 3, pp 485–505.