Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

lavoro di pulizia sui CSV #2

Open
aborruso opened this issue May 11, 2016 · 7 comments
Open

lavoro di pulizia sui CSV #2

aborruso opened this issue May 11, 2016 · 7 comments

Comments

@aborruso
Copy link
Member

aborruso commented May 11, 2016

Ciao,
nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire con voi e sopratutto con @cesaregerbino che ha un po' seguito la parte di "montaggio" dei dati se ha senso un lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

  • ho rimosso degli inutili line feed presenti (nella IV colonna)
  • ho "standardizzato" un po il CSV
    • è UTF8
    • il separatore è la ,
    • rimosso eventuali righe vuote (ma non ce ne è, l'ultima in realtà non è vuota)

La standardizzazione consente un comodo preview dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

  • aggiornato il file progetto QGIS rispetto a questo CSV aggiornato (cambia il separatore e QGIS lo deve sapere)
  • creato automaticamente - con csvstat - un file che descrive il suddetto file CSV.

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani" ancora da risolvere. Volevo capire se vi sembra utile procedere in questo senso anche con gli altri CSV.

Saluti

@cesaregerbino
Copy link
Collaborator

Ciao Andrea,

scusa x il ritardo con cui rispondo ma dal ritorno da SOD16 non ho avuto
molto tempo.

Il nostro lavoro di "montaggio" e' stato fatto molto velocemente man mano
che recuperavamo dati durante l'hackaton e ho cercato di dare priorità a
permettere di "vedere" la distribuzione dei dati sul territorio nazionale
al termine della giornata pur sapendo che si trattava di dati, al momento,
sporchi sia come dati descrittivi sia come dati geo riferiti (vedi i casi
di Liguria e Veneto ....).

Questa è anche la ragione x cui x questi dati NON ho creato i
corrispondenti shapefiles.

Quindi i dati sono SI da ripulire e quindi ben venga il tuo contributo (e
di chi vorrà darti una mano ....). Ottimo il fatto che sia così disponibile
il preview da gitHub (e quindi oggi ne ho imparata un'altra che non
sapevo, o meglio a cui non avevo pensato, grazie a SOD !!!).

Resta da capire la "confrontabilita'" dei dati tra loro anche e non solo
per gli aspetti temporali (i dati si riferiscono a tempi diversi e quindi
un sito presente in una fonte potrebbe, anche correttamente, non essere più
presente in un'altra più recente), ma questo è un altro aspetto.

Grazie Andrea del tuo prezioso contributo e se servono altre info chiedi
pure.

A risentirci presto perché ho letto le varie mail scambiate e ho delle
osservazioni e considerazioni da fare .....

Buona serata ....

Cesare

Il mercoledì 11 maggio 2016, Andrea Borruso notifications@github.com ha
scritto:

Ciao,
nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire
con voi e sopratutto con @cesaregerbino https://github.com/cesaregerbino
che ha un po' seguito la parte di "montaggio" dei dati se ha senso un
lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato
il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

  • ho rimosso degli inutili line feed presenti (nella IV colonna)
  • ho "standardizzato" un po il CSV
    • è UTF8
    • il separatore è la ,
    • rimosso eventuali righe vuote (ma non ce ne è, l'ultima in realtà
      non è vuota)

La standardizzazione consente un comodo preview
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/MinAmbiente/PNA_W/Campania_2013.csv
dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

  • aggiornato il file progetto QGIS rispetto a questo CSV aggiornato
    (cambia il separatore e QGIS lo deve sapere)
  • creato automaticamente - con csvstat - un file che descrive il
    suddetto file CSV.

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani"
ancora da risolvere. Volevo capire se vi sembra utile procedere in questo
senso anche con gli altri CSV.

Saluti


You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni
espresse sono personali e non riflettono necessariamente quelle del mio
datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:
the views expressed are mine and not necessarily those of my employer.
.

@dagoneye
Copy link
Member

Esatto: il punto fondamentale è decidere il modello del dato finale, quali colonne ci servono etc. A occhio una delle cose da cui partire è l'esperienza che ha fatto Davide Mancino per l'inchiesta uscita su Wired, dove aveva usato i dati del 2010.
Una pulizia di base è cmq fondamentale, grazie Andrea.

@aborruso
Copy link
Member Author

Cari @cesaregerbino e @dagoneye i dati di questa cartella su cui ho iniziato a mettere il naso sono del 2013. Mentre quelli da cui partire sono del 2010. Mi fermo?

Quando dite (scusatemi non ho letto tutto) dati del 2010 fate riferimento a quelli INAIL? Nella scheda anagrafica non trovo altri riferimenti al 2010.

Grazie

@aborruso
Copy link
Member Author

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile
il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per
mille ragioni, di cui una è sempre il preview
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson
.

[image: Inline images 1]

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"

Italo Calvino

@cesaregerbino
Copy link
Collaborator

cesaregerbino commented May 12, 2016

infatti avevo risposto velocemente pensando al json ...... per le
questioni "date", se non chiarisce prima Matteo o altri, ti rispondo più
tardi con calma, adesso non posso

Cesare Gerbino

Il giorno 12 maggio 2016 09:22, Andrea Borruso notifications@github.com
ha scritto:

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile
il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per
mille ragioni, di cui una è sempre il preview
<
https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson

.

[image: Inline images 1]

Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"

Italo Calvino


You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2 (comment)

@dagoneye
Copy link
Member

@aborruso al volo: ottima l'idea di inserire un readme con le note sulla fonte all'interno delle singole cartelle, ci fa fare meno casino.
Per la datazione esatta dei dati forse @cesaregerbino è la persona di riferimento: io rischio di dire panzane.

@cesaregerbino
Copy link
Collaborator

cesaregerbino commented May 12, 2016

Ciao Andrea,

provo a fare mente locale ....

>>Quando dite (scusatemi non ho letto tutto) dati del 2010 fate
riferimento a quelli INAIL?

Si questo lo ricordo ....

>>i dati di questa cartella su cui ho iniziato a mettere il naso sono del
2013. Mentre quelli da cui partire sono del 2010. Mi fermo?

Eh qui ho qualche difficoltà in più perchè ad un certo punto ho iniziato a
concentrami sulla parte QGIS e meno sulla raccolta dei dati.
Andrei per deduzione: se i dati INAIL sono del 2010 mentre quelli del
Ministero sono del 2013 io andrei avanti nella pulizia dei dati.
Avremo così comunque un dato più aggiornato e ripulito: poi potremmo fare
dei confronti in aree in cui di dati si sovrapponogno per vedere eventuali
differenze.

I dati sono e saranno, in questa fase, riferiti ad epoche diverse (ad
esempio quelli del Piemonte sono aggiornati ogni mese da dichiarazione ARPA
Piemonte ....), e quindi difficile avere un dato omogeneo a livello
temporale su tutto il territorio nazionale (vistco he MInambi non aggiorna
la sua vista d'insieme ....)

Mi spiace di non avere notizie più "risolutive" ...

Buona serata

Cesare Gerbino

Il giorno 12 maggio 2016 10:03, Matteo Brunati notifications@github.com
ha scritto:

@aborruso https://github.com/aborruso al volo: ottima l'idea di
inserire un readme con le note sulla fonte all'interno delle singole
cartelle, ci fa fare meno casino.
Per la datazione esatta dei dati forse @cesaregerbino
https://github.com/cesaregerbino è la persona di riferimento: io
rischio di dire panzane.


You are receiving this because you were mentioned.
Reply to this email directly or view it on GitHub
#2 (comment)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants