lavoro di pulizia sui CSV #2

aborruso · 2016-05-11T16:32:48Z

Ciao,
nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire con voi e sopratutto con @cesaregerbino che ha un po' seguito la parte di "montaggio" dei dati se ha senso un lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

ho rimosso degli inutili line feed presenti (nella IV colonna)
ho "standardizzato" un po il CSV
- è UTF8
- il separatore è la ,
- rimosso eventuali righe vuote (ma non ce ne è, l'ultima in realtà non è vuota)

La standardizzazione consente un comodo preview dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

aggiornato il file progetto QGIS rispetto a questo CSV aggiornato (cambia il separatore e QGIS lo deve sapere)
creato automaticamente - con csvstat - un file che descrive il suddetto file CSV.

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani" ancora da risolvere. Volevo capire se vi sembra utile procedere in questo senso anche con gli altri CSV.

Saluti

The text was updated successfully, but these errors were encountered:

cesaregerbino · 2016-05-11T18:03:50Z

Ciao Andrea,

scusa x il ritardo con cui rispondo ma dal ritorno da SOD16 non ho avuto
molto tempo.

Il nostro lavoro di "montaggio" e' stato fatto molto velocemente man mano
che recuperavamo dati durante l'hackaton e ho cercato di dare priorità a
permettere di "vedere" la distribuzione dei dati sul territorio nazionale
al termine della giornata pur sapendo che si trattava di dati, al momento,
sporchi sia come dati descrittivi sia come dati geo riferiti (vedi i casi
di Liguria e Veneto ....).

Questa è anche la ragione x cui x questi dati NON ho creato i
corrispondenti shapefiles.

Quindi i dati sono SI da ripulire e quindi ben venga il tuo contributo (e
di chi vorrà darti una mano ....). Ottimo il fatto che sia così disponibile
il preview da gitHub (e quindi oggi ne ho imparata un'altra che non
sapevo, o meglio a cui non avevo pensato, grazie a SOD !!!).

Resta da capire la "confrontabilita'" dei dati tra loro anche e non solo
per gli aspetti temporali (i dati si riferiscono a tempi diversi e quindi
un sito presente in una fonte potrebbe, anche correttamente, non essere più
presente in un'altra più recente), ma questo è un altro aspetto.

Grazie Andrea del tuo prezioso contributo e se servono altre info chiedi
pure.

A risentirci presto perché ho letto le varie mail scambiate e ho delle
osservazioni e considerazioni da fare .....

Buona serata ....

Cesare

Il mercoledì 11 maggio 2016, Andrea Borruso notifications@github.com ha
scritto:

Ciao,
nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire
con voi e sopratutto con @cesaregerbino https://github.com/cesaregerbino
che ha un po' seguito la parte di "montaggio" dei dati se ha senso un
lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato
il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

ho rimosso degli inutili line feed presenti (nella IV colonna)

ho "standardizzato" un po il CSV

è UTF8

il separatore è la ,

rimosso eventuali righe vuote (ma non ce ne è, l'ultima in realtà
non è vuota)

La standardizzazione consente un comodo preview
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/MinAmbiente/PNA_W/Campania_2013.csv
dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

aggiornato il file progetto QGIS rispetto a questo CSV aggiornato
(cambia il separatore e QGIS lo deve sapere)

creato automaticamente - con csvstat - un file che descrive il
suddetto file CSV.

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani"
ancora da risolvere. Volevo capire se vi sembra utile procedere in questo
senso anche con gli altri CSV.

Saluti

—
You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni
espresse sono personali e non riflettono necessariamente quelle del mio
datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:
the views expressed are mine and not necessarily those of my employer.
.

dagoneye · 2016-05-11T19:52:35Z

Esatto: il punto fondamentale è decidere il modello del dato finale, quali colonne ci servono etc. A occhio una delle cose da cui partire è l'esperienza che ha fatto Davide Mancino per l'inchiesta uscita su Wired, dove aveva usato i dati del 2010.
Una pulizia di base è cmq fondamentale, grazie Andrea.

aborruso · 2016-05-12T07:18:16Z

Cari @cesaregerbino e @dagoneye i dati di questa cartella su cui ho iniziato a mettere il naso sono del 2013. Mentre quelli da cui partire sono del 2010. Mi fermo?

Quando dite (scusatemi non ho letto tutto) dati del 2010 fate riferimento a quelli INAIL? Nella scheda anagrafica non trovo altri riferimenti al 2010.

Grazie

aborruso · 2016-05-12T07:22:18Z

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile
il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per
mille ragioni, di cui una è sempre il preview
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson
.

[image: Inline images 1]

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"

Italo Calvino

cesaregerbino · 2016-05-12T07:29:15Z

infatti avevo risposto velocemente pensando al json ...... per le
questioni "date", se non chiarisce prima Matteo o altri, ti rispondo più
tardi con calma, adesso non posso

Cesare Gerbino

Il giorno 12 maggio 2016 09:22, Andrea Borruso notifications@github.com
ha scritto:

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile
il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per
mille ragioni, di cui una è sempre il preview
<
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson

.

[image: Inline images 1]

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"

Italo Calvino

—
You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2 (comment)

dagoneye · 2016-05-12T08:03:12Z

@aborruso al volo: ottima l'idea di inserire un readme con le note sulla fonte all'interno delle singole cartelle, ci fa fare meno casino.
Per la datazione esatta dei dati forse @cesaregerbino è la persona di riferimento: io rischio di dire panzane.

cesaregerbino · 2016-05-12T19:38:02Z

Ciao Andrea,

provo a fare mente locale ....

>>Quando dite (scusatemi non ho letto tutto) dati del 2010 fate
riferimento a quelli INAIL?
Si questo lo ricordo ....

>>i dati di questa cartella su cui ho iniziato a mettere il naso sono del
2013. Mentre quelli da cui partire sono del 2010. Mi fermo?
Eh qui ho qualche difficoltà in più perchè ad un certo punto ho iniziato a
concentrami sulla parte QGIS e meno sulla raccolta dei dati.
Andrei per deduzione: se i dati INAIL sono del 2010 mentre quelli del
Ministero sono del 2013 io andrei avanti nella pulizia dei dati.
Avremo così comunque un dato più aggiornato e ripulito: poi potremmo fare
dei confronti in aree in cui di dati si sovrapponogno per vedere eventuali
differenze.

I dati sono e saranno, in questa fase, riferiti ad epoche diverse (ad
esempio quelli del Piemonte sono aggiornati ogni mese da dichiarazione ARPA
Piemonte ....), e quindi difficile avere un dato omogeneo a livello
temporale su tutto il territorio nazionale (vistco he MInambi non aggiorna
la sua vista d'insieme ....)

Mi spiace di non avere notizie più "risolutive" ...

Buona serata

Cesare Gerbino

Il giorno 12 maggio 2016 10:03, Matteo Brunati notifications@github.com
ha scritto:

@aborruso https://github.com/aborruso al volo: ottima l'idea di
inserire un readme con le note sulla fonte all'interno delle singole
cartelle, ci fa fare meno casino.
Per la datazione esatta dei dati forse @cesaregerbino
https://github.com/cesaregerbino è la persona di riferimento: io
rischio di dire panzane.

—
You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2 (comment)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lavoro di pulizia sui CSV #2

lavoro di pulizia sui CSV #2

aborruso commented May 11, 2016 •

edited

Loading

cesaregerbino commented May 11, 2016

dagoneye commented May 11, 2016

aborruso commented May 12, 2016

aborruso commented May 12, 2016

cesaregerbino commented May 12, 2016 •

edited by dagoneye

Loading

dagoneye commented May 12, 2016

cesaregerbino commented May 12, 2016 •

edited by dagoneye

Loading

lavoro di pulizia sui CSV #2

lavoro di pulizia sui CSV #2

Comments

aborruso commented May 11, 2016 • edited Loading

cesaregerbino commented May 11, 2016

dagoneye commented May 11, 2016

aborruso commented May 12, 2016

aborruso commented May 12, 2016

cesaregerbino commented May 12, 2016 • edited by dagoneye Loading

dagoneye commented May 12, 2016

cesaregerbino commented May 12, 2016 • edited by dagoneye Loading

aborruso commented May 11, 2016 •

edited

Loading

cesaregerbino commented May 12, 2016 •

edited by dagoneye

Loading

cesaregerbino commented May 12, 2016 •

edited by dagoneye

Loading