Skip to content

Wired: il lavoro fatto aggregando alcuni dati

Matteo Brunati edited this page May 29, 2016 · 2 revisions

Wired ha pubblicato una prima inchiesta nell'aprile del 2015, e poi un grosso aggiornamento il 3 dicembre 2015: Davide Mancino ha condiviso in lista il lavoro fatto per Wired:

Il primo lavoro http://www.wired.it/partner/amianto si è basato sui dati del censimento 2010, cioè in sostanza sullo scraping di queste 191 pregevoli pagine di pdf. Come potete immaginare, vista la fonte e le risorse che avevamo a disposizione è stato necessario escludere molte delle informazioni disponibili e concentrarci soltanto su quelle più importanti, ovvero la localizzazione dei siti per coordinate geografica e il coefficiente di rischio (la variabile che nel file si chiama "classe di priorità", e indica i siti di maggiore gravità e quindi prioritari in termini di bonifica). Già lì i siti si contavano a decine di migliaia, ma anche a occhio si vedono grandi buchi e sorprende la mancanza di regioni importanti come Lombardia e Piemonte. Anzi il risultato poteva essere fuorviante, perché le Marche che avevano fatto un ottimo lavoro di censimento sembravano "infestate" dall'amianto, mentre le regioni più pigre (che neppure si sono degnate di fare il censimento e/o inviare i dati) apparivano immacolate.

Dopo di che con Rosy abbiamo continuato a seguire la vicenda, che ha continuato a evolversi nel tempo in maniera lenta ma costante. Per esempio ARPA Piemonte all'inizio ci aveva negato i dati, il che è un vero peccato perché avevano fatto un'operazione di mappatura assai dettagliata, ma è bastato rompergli le scatole per un po' perché alla fine venissero fuori. Poi è saltato fuori anche il lavoro svolto in Lombardia, che però come avete già notato riguarda soltanto una porzione assai piccola del territorio. Ancora più avanti i dati pubblicati sul sito del ministero dell'ambiente sono stati aggiornati al 2013, ma se li avete aperti avrete senz'altro visto che forse sono ancora peggiori di quelli precedenti, perché a quanto pare ogni regione ha fatto a modo proprio, e comunque si tratta ancora di sole 14 regioni su 20.

Nonostante questo erano informazioni nuove (si fa per dire: i dati di alcune regioni risalivano al 2000, ma tant'è), per cui ci ho rilavorato su per cercare di renderli omogenei e ripulirli, magari escludendo i siti che comparivano (per ragioni piuttosto misteriose, ma forse il ministero dispone di sommozzatori e/o agenti all'estero) in fondo al mare Adriatico, in Grecia, a volte in Tunisia o in Iran. Dov'erano disponibili le coordinate geografiche i dati sono stati mappati, ma in molti altri casi non c'erano quindi l'unico modo per dare un quadro un po' più d'insieme, credo, era aggregare le varie fonti disponibili fino a quel momento. Come scrivevo su Twitter, mi sono accorto soltanto ieri di non aver mai pubblicato questi ultimi dati (che ho usato per la seconda visualizzazione dell'articolo), così li ho messi su github caso mai dovessero servirvi. Più positivo invece è stato il livello di approfondimento delle statistiche, da cui è stato possibile trarre informazioni più dettagliate rispetto al solo livello di rischio.

Per la seconda parte, il dato aggregato aggiornato il 3 dicembre 2015, Davide ha condiviso queste note:

Il lavoro che ho fatto con i dati del 2013 è stato essenzialmente unire tutti i file excel in un unico database e poi dividere i dati in due tronconi:

  1. Quelli per cui erano disponibili coordinate geografiche (comunque una minoranza), che poi sono quelli della mappa pubblicata qui. L'unica altra operazione che ho fatto in QGIS è stata eliminare i punti palesemente assurdi, tipo quelli che comparivano in Tunisia o in Iran, ma per il resto li ho messi su com'erano
  1. Quelli per cui non erano disponibili le coordinate, che invece ho usato per le altre visualizzazioni dell'articolo andando a integrare le regioni mancanti del 2010 o aggiungendo i censimenti più dettagliati di piemonte e lombarrdia. Purtroppo com'è evidente fare un'operazione del genere è una cosa molto rozza, e in teoria starebbe al ministero mettere insieme tutte le informazioni in unico dataset coerente, ma così non è stato, quindi piuttosto che niente io e rosy abbiamo deciso di procedere in questo modo.

Il dataset aggiornato in questione è questo.