Durante la mattinata di giovedì 27 aprile, in Aula Blu 1 dell’Università La Sapienza di Roma, con il prof. Biagio Aragona, docente all’Università Federico II di Napoli si è discusso di nowcasting e di altre metodologie d’analisi dati in ricerca sociale, oltre che di punti critici e potenzialità, all’interno dell’evento “Fare ricerca sull’opinione pubblica con il nowcasting“. Nowcasting (da “now” e “forecasting”) significa letteralmente: prevedere l’ora.
Uno dei principali limiti dei metodi tradizionali di ricerca sociale, tra cui la survey, è proprio di natura temporale. Già solo la fase di raccolta dati è molto ampia, prevede tempistiche decisamente poco compatibili con lo studio e, di conseguenza, la previsione dell’andamento di determinati fenomeni. Basti pensare alla recente pandemia da coronavirus: è ancora in corso, ad esempio, un contenzioso da milioni di euro che vede protagonista la regione Lombardia. Non abbiamo di certo dimenticato le prime “zone rosse”, oppure i semafori regionali che, a cadenza bisettimanale, scandivano e dilazionavano la nostra quotidianità fino a poco tempo fa. I dati che decidevano il colore del semaforo rendevano però un quadro obsoleto: facevano riferimento alla situazione epidemiologica di circa quindici giorni precedenti. Lasso di tempo troppo consistente per una situazione in continua evoluzione.
In quest’ottica, non è difficile comprendere la rilevanza di metodi quali il nowcasting, che accorcino le tempistiche d’indagine e di previsione.
Nowcasting e metodi tradizionali a confronto
La raccolta dati
Uno dei punti critici del nowcasting risiede nella raccolta dati e nel repurposing (reindirizzamento). I dati di cui si serve il nowcasting sono costituiti da “materiale empirico nato senza scopo di ricerca“, come spiega il prof. Aragona. Si tratta di informazioni tratte da strumenti digitali, che includono sia tracce lasciate “consapevolmente” dagli utenti in rete, come ad esempio un post sui social, sia tracce involontarie come i log data. Non fanno eccezione i dati raccolti da strumenti connessi ad internet, come reti wi-fi, webcam. Nel loro insieme, costituiscono il più ampio gruppo dei big data, cioè dati prodotti e raccolti da aziende, governi, istituzioni, con scopi diversi dalla ricerca.
È evidente come non esistano dati prodotti appositamente per fare ricerca con il nowcasting, cosa che invece succede con altri strumenti d’indagine, quali la survey. A questo proposito, s’introduce il concetto di repurposing, che consiste nel reindirizzare dati raccolti senza fini di ricerca, per impiegarli nella ricerca.
Il nowcasting, la ricerca, l’impiego di Google Trends
Se i social, come ad esempio Twitter, possono avere un ruolo chiave nel processo di ricerca, lo stesso si puo’ dire per quanto riguarda i motori di ricerca. E il motore di ricerca per eccellenza è Google. In particolare, tramite l’estensione di Google Trends, è possibile analizzare l’andamento e il trend di ricerca di determinate parole chiave. Naturalmente, Google non fornisce dati quantitativi sugli utenti che hanno ricercato tale key word: in gergo, non fornisce indici assoluti ma relativi.
La ricerca di Ginsberg et al (2009) e il caso dell’influenza suina
I centri statunitensi per il controllo delle malattie (CDC), raccolgono dati da medici di tutto il Paese per fare delle stime, che hanno un ritardo medio di circa due settimane. Tra queste ricerche, si annoverano anche le stime sull’andamento dell’influenza. Anche google raccoglie dati sull’influenza attraverso le ricerche effettuate dagli utenti. Nel 2009, Ginsberg et al., pubblicarono una ricerca in cui si mettevano in relazione i dati raccolti dai CDC e da Google dal 2003 al 2007. La ricerca riscosse un enorme successo, tanto che venne pubblicata anche su Nature: sembrò che si fosse aperta una pista verso la compenetrazione di questi modelli, consacrando i motori di ricerca a straordinaria fonte di dati attendibili. Ma nel 2009, in relazione alla diffusione dell’influenza suina, se ne evidenziò un importante limite: l’influenza non si trasformò mai in una pandemia, come invece i trend avevano previsto. Questo perché gli utenti che si abbandonavano ad una ricerca google sui sintomi della malattia, non necessariamente cercavano una diagnosi ma cercavano anche solo di soddisfare l’urgenza di consapevolezza. In altre parole, solo una parte degli utenti che googlavano la malattia temevano di aver contratto l’influenza.
Punti critici
Come già evidenziato in precedenza, i principali nodi da sciogliere riguardano la raccolta e il repurposing dei dati. Esistono, tuttavia, altri aspetti critici e controversi da scandagliare. Pensiamo ad esempio, all’impatto di una previsione sull’andamento futuro di un determinato fenomeno: quanto possiamo ancora definirla previsione, quando è in grado di manovrare e reindirizzare le tendenze degli utenti e della popolazione?
Abbiamo approfondito ulteriormente l’argomento con il professore Biagio Aragona