La visualizzazione dei dati aiuta o confonde?

Considerazioni sulla rappresentazione della diffusione del COVID-19

Con il continuo diffondersi del COVID-19 in tutto il mondo, la mappatura del virus non è più solo una necessità medica e di sicurezza, ma è diventata un elemento visivo della crisi stessa. Nel bene e nel male una elemento delicato in grado di orientare comportamenti e scelte politiche. I dati relativi alla popolazione colpita (inclusi i decessi e i casi curati) da parte di agenzie stampa, istituzioni governative o di ricerca, prendono diverse forme e la mappa su base cartografica è quella più diffusa. I grafici lo sono di meno. I dati sono disgregati e non omogenei.

Tutto questo ci ha spinto a porci alcune domande su tipologie di rappresentazioni, modalità produttive ed efficienza rispetto a determinati obiettivi.

Mappe e confini

La dashboard della Johns Hopkins University (JHU) sembra essere diventato uno degli strumenti preferiti per tracciare il COVID-19 attraverso il tempo e lo spazio. Citato da giornalisti e scienziati, la mappa ad un certo punto ha persino iniziato a comparire in riunioni ufficiali di governi come Germania, Italia, Israele e probabilmente molti altri. Questo suo utilizzo all'interno del contesto politico diventa particolarmente rilevante se si considera il disclaimer ufficiale del sito web: “Questo sito web e i suoi contenuti, inclusi tutti i dati, la mappatura e l'analisi ("Sito"), copyright 2020 Johns Hopkins University, tutti i diritti riservati, sono forniti al pubblico esclusivamente per scopi educativi e di ricerca accademica. [...] Il sito web si basa su dati disponibili al pubblico provenienti da diverse fonti, che non sempre sono d'accordo. Con il presente documento la Johns Hopkins University declina ogni e qualsiasi dichiarazione e garanzia in relazione al Sito Web, incluse l'accuratezza, l'idoneità all'uso e la commerciabilità. È severamente vietato fare affidamento sul Sito Web per una guida medica o per l'utilizzo del Sito Web in commercio.”

This website and its contents herein, including all data, mapping, and analysis (“Website”), copyright 2020 Johns Hopkins University, all rights reserved, is provided to the public strictly for educational and academic research purposes. [...] The Website relies upon publicly available data from multiple sources, that do not always agree. The Johns Hopkins University hereby disclaims any and all representations and warranties with respect to the Website, including accuracy, fitness for use, and merchantability. Reliance on the Website for medical guidance or use of the Website in commerce is strictly prohibited

Osservando questa visualizzazione all'interno di sedi governative e delle rispettive autorità che si occupano della comunicazione della crisi, le viene attribuita un’affidabilità al di là dell’uso previsto, ovvero quello di un utilizzo strettamente educativo ed accademico.

​​

La dashboard della JHU non è un caso anomalo e molti stati la hanno riprodotta per la rappresentazione di dati raccolti su scala nazionale. Questa tipologia di visualizzazione, che è diventata a tutti gli effetti uno standard, viene modificata solo nei suoi aspetti superficiali al fine di ottenere una maggiore o minore drammatizzazione visiva del dato.

Quest’uso della base cartografica “spalma” il dato sul territorio perdendone l’accuratezza. Come la storia ci insegna la visualizzazione di epidemie ha sempre necessitato di un minuzioso livello di precisione. Questo lo vediamo immediatamente negli studi per contenere la diffusione del colera nella provincia di Bari, nelle mappe di John Snow di Londra o in quelle di Richard Grainger.

Al contrario la maggior parte delle mappe che appaiono online visualizzano dati su scala nazionale, regionale o al limite provinciale, disponendo un marker (normalmente una circonferenza) all’interno del confine dell’area. Questi marker, la cui dimensione è proporzionale al numero di persone affette da Coronavirus, non sono accurati da un punto di vista geografico, non sono utili ne per capire quando i contagiati guariscono, ne come si diffonde la pandemia e la loro forma circolare rende difficile il confronto del dato tra aree.

Prendendo come esempio le mappe che rappresentano l’Italia, dove i puntatori sono posti su ogni provincia, notiamo come questo tipo di visualizzazione mostri tutto il Paese colpito dal virus, in maniera più o meno omogenea. Viceversa visualizzando i casi di COVID-19 in base alla percentuale della popolazione la rappresentazione grafica di questi dati cambia completamente, mostrando prevalentemente colpite le regioni del Nord Italia (Fonte dei dati: Protezione Civile).

Confrontando la restituzione visiva di questi piccoli esempi si può notare che non esiste una visualizzazione corretta rispetto ad un’altra ma che la rappresentazione scelta (più o meno consapevolmente) immancabilmente mette in risalto alcuni aspetti e ne occulta altri.

Le mappe non mostrano dati in maniera imparziale, ma creano la realtà tanto quanto la rappresentano. (Crampton Krygier, 2015).

Le mappe con le loro basi cartografiche basate su confini politici (a cui il COVID-19 non è sensibile), le circonferenze dei marker di difficile comparazione e senza dettagli i codici colore usati per drammatizzare o sdramattizzare sono imprecise, di difficile lettura analitica eppure, o forse proprio per questo sono lo strumento di visualizzazione più diffuso e utilizzato.

Grafici per pochi

Curve e grafici su assi emergono meno, ma sono più presenti non appena si cerca un livello di approfondimento maggiore. Sono visualizzazioni più astratte che perdono la localizzazione sulla carta ma acquisiscono la possibilità di essere controllate e modificate facilmente dal fruitore, permettendo confronti dinamici di dati e un grado di leggibilità maggiore.

Anche in questo caso è importante notare che la modifica della scala (lineare o logaritmica) ha la capacità di rendere il dato confortante o drammatico. La scelta tra le due scale (spesso obbligata da dimensione del dato e spazio disponibile) deve essere chiaramente esplicitata.

In merito, sono le visualizzazioni che si allontanano da una rappresentazione spaziale che troviamo più interessanti, quelle che provano a spiegare come si trasmette il virus, come ad esempio le simulazioni (seppure con un’estetica molto “da laboratorio”) del Washington Post

Dati incerti e confinati

Infine, il cuore del problema: i dati. Confinati, disomogenei, discontinui presentano notevoli discrepanze quando visualizzati in tempo reale. Come l’apparente calo di casi di COVID-19 nei weekend. Casi che esistono, ma vengono comunicati ad inizio settimana. Quello che accade in Italia succede in ogni altro paese estero. Ogni stato raccoglie e diffonde i dati in maniera diversa. Spesso incompleti e parziali (Costa, 2020). I virus non hanno confini, lo si sente dire spesso, ma i dati sono confinati. Lo sono per formato, linguaggio e paese.

Come esistono protocolli per i dati meteorologici, dovrebbe esistere uno standard uniforme per la raccolta e la diffusione dei dati legati alle pandemie.

I dati vengono raccolti e manipolati in diverse fasi asincrone e discontinue. Partono dai centri di test locali e ospedalieri presenti in ogni regione, fino ad arrivare alle istituzioni nazionali che raggruppano e diffondono statistiche e numeri. Questi numeri, che vengono rilasciati dagli enti di difesa civile statali, non sono confrontabili a livello cartografico. 

La cartografia del COVID-19 pur essendo il sistema di visualizzazione più diffuso è imprecisa e priva di fondamento scientifico.

La scelta della rappresentazione, la combinazione di elementi grafici e cromatici può sembrare semplice e facile da gestire, ma il loro potere esplicativo si basa su un'infrastruttura di dati diversificata, incomparabile e di conseguenza imprecisa.

Conclusioni provvisorie

La visualizzazione dei dati o data visualisation in questi anni è esplosa, gli strumenti e le potenzialità ci sono tutte. Ciò di cui si sente l’urgenza in questo momento è una base dati su cui lavorare, congrua e senza regionalismi. Un processo produttivo che integri in un unico flusso la scelta del dato, la regia dell’interazione, il design grafico, la chiarezza sul contesto d’uso e la tipologia di fruizione.

Quanto scritto vuole essere un piccolo contributo agli sforzi che istituzioni e cittadini stanno facendo affinché la raccolta e la visualizzazioni dei dati siano utili per lo studio delle pandemie e la divulgazione di informazioni corrette e chiare.

Giacomo Nanni
Julian Peschel

articolo-covid9.png
COVID-19 Italia - Monitoraggio della situazione (04 aprile 2020)
Cerchi e quadrati

Quante b o c sono contenute in a? La forma cerchio rende difficile e imprecisa la valutazione della sua area così come il confronto con altre aree circolari.

Fonti: New York TImes, Il Sole 24 Ore

articolo-covid5.png
Casi globali di coronavirus COVID-19 visualizzati dal Center for Systems Science and Engineering (CSSE) della Johns Hopkins University (JHU)
covid-comp.png
La dashboard della JHU del 09 marzo 2020 riporta un numero maggiore di casi totali (circa ventimila) rispetto a quattro giorni dopo.
articolo-covid3.png
Unità operativa del governo italiano per affrontare la pandemia di coronavirus (23 febbraio 2020)
Fonti: Acta medico-historica Adriatica, David Rumsey Map Collection, Wellcome Collection