N. 379 - Promise and Pitfalls in the Use of 'Secondary' Data -Sets: Income Inequality in OECD Countries

Go to the english version Cerca nel sito

di A. B. Atkinson e A. Brandoliniottobre 2000

Le banche dati “derivate”, ovvero i compendi di informazioni raccolte da fonti primarie distinte ed eterogenee o da altre fonti esse stesse derivate, hanno un rilievo crescente nella ricerca economica empirica. Negli anni più recenti, un esempio significativo è fornito dalle serie storiche di contabilità nazionale raccolte da Summers e Heston (1991) per un considerevole numero di paesi e impiegate in numerosi studi su determinanti e caratteristiche della crescita economica. In considerazione del loro ampio utilizzo, sarebbe auspicabile che le banche dati derivate fossero sottoposte a controlli di qualità accurati e indipendenti.

Con questo spirito, nel lavoro si vaglia criticamente l’importante banca dati sulla distribuzione personale dei redditi recentemente costruita da Klaus Deininger e Lyn Squire alla Banca Mondiale. Essa contiene più di 2.600 osservazioni sintetiche sulla distribuzione in 135 paesi, sviluppati e in via di sviluppo, negli anni dal 1947 al 1994. Oltre alla raccolta e alla selezione delle osservazioni in base ad alcuni criteri prefissati, il contributo di Deininger e Squire consiste nell’aver individuato un sottoinsieme di quasi 700 osservazioni, relative a 115 paesi, definite di “alta qualità”.

Nella prima sezione si illustrano due esempi delle difficoltà in cui i ricercatori possono incorrere utilizzando in maniera superficiale la banca dati – anche quando si limitino a usare le sole osservazioni di “alta qualità”. Il primo esempio riguarda un confronto tra i paesi dell’OCSE, mentre il secondo concerne l’analisi di serie storiche. Prendendo la concentrazione dei redditi familiari nei Paesi Bassi come esempio, si mostra come vi siano significative differenze tra il profilo temporale della serie di “alta qualità” di Deininger e Squire e l’analoga serie dell’Istituto di statistica olandese, calcolata secondo criteri omogenei.

Nelle sezioni successive, l’analisi si concentra sui paesi dell’OCSE. La banca dati di Deininger e Squire viene innanzitutto collocata in prospettiva storica, ricostruendone il legame con analoghi esercizi condotti in passato. Ripercorrendo la “genealogia” di molte delle statistiche incluse, si notano duplicazioni e omissioni difficilmente spiegabili, nonché, in diversi casi, un’insufficiente documentazione sulle fonti originarie. Successivamente si passano brevemente in rassegna i molti aspetti metodologici impliciti nelle stime della disuguaglianza della distribuzione del reddito.

Si mostra quindi come combinando statistiche ottenute con ipotesi metodologiche diverse – come le osservazioni di “alta qualità” di Deininger e Squire – si possano seriamente inficiare molte delle conclusioni raggiunte nei confronti internazionali e nelle analisi dei cambiamenti temporali della disuguaglianza dei redditi.

Nell’ultima sezione, si traggono alcuni insegnamenti per la costruzione di banche dati derivate che, seppur riferiti specificamente a quelle sulla distribuzione del reddito, assumono un carattere più generale. In particolare, si conclude che:

  • le banche dati derivate devono essere minuziosamente documentate, cumulative ed esenti da duplicazioni e omissioni; la possibilità di replicare i dati è essenziale
  • la classificazione delle stime richiede un’attenta ponderazione, affinché attributi quali quello “di alta qualità” non si rivelino fuorvianti; appare preferibile includere quante più osservazioni è possibile, differenziate per un ampio ventaglio delle ipotesi sottostanti di calcolo
  • semplici procedure, additive o moltiplicative, di correzione delle stime ottenute con metodi di calcolo differenti sono poco convincenti; la soluzione più appropriata è quella di cercare di ricorrere a informazioni il più possibile comparabili, tenendo presente che le conclusioni dipendono dalle ipotesi sottostanti di calcolo
  • al momento, l’uso meccanico di banche dati secondarie senza una conoscenza delle fonti statistiche primarie può rivelarsi imprudente e fonte di conclusioni errate.

Pubblicato nel 2001 in: Journal of Economic Literature, v. 39, 3, pp. 771-799