08/08/2020

Erreti (leggermente) maggiore di uno

«L’indice di trasmissione nazionale (Rt) calcolato sui casi sintomatici, è pari a 1.01. Questo indica che, al netto dei casi identificati attraverso attività di screening e dei casi importati, il numero di casi sintomatici diagnosticati nel nostro paese è stato sostanzialmente stazionario nelle scorse settimane»

ISS – Monitoraggio settimanale Covid-19, report 27 luglio – 02 agosto

La velocità di diffusione dell’epidemia può essere misurata attraverso l’indice Rt e come ben spiegato da Carlo di Pietroantonj «Rt maggiore di 1 indica che la generazione successiva di nuovi infetti è più numerosa delle precedente, ovvero che l’epidemia sta accelerando, mentre Rt inferiore a 1 indica che la generazione successiva di nuovi infetti è meno numerosa della precedente e pertanto l’epidemia sta rallentando».

Ogni settimana l’Istituto Superiore di Sanità nel fornire dati e stime a livello nazionale e regionale ricorda che «i dati raccolti sono in continua fase di consolidamento e, come prevedibile in una situazione emergenziale, alcune informazioni sono incomplete» ed è quindi chiaro che anche la stima di Rt , calcolata a partire dal numero di numero di casi distribuiti per data inizio sintomi, deve tener in qualche modo conto del mancato consolidamento dei dati. Dopo aver affrontato il tema del mancato consolidamento dei dati riguardanti il numero di nuovi casi distribuiti per data di diagnosi può essere interessante guardare ai dati riguardanti i nuovi casi distribuiti per data inizio sintomi.

Il grafico qui sotto mostra una serie di curve epidemiche costruite a partire dal numero di nuovi casi distribuiti per data inizio sintomi. I dati sono estratti dalla dashboard dell’Istituto Superiore di Sanità e sono disponibili grazie all’incessante impegno di onData che ne cura lo scraping e l’archiviazione nel proprio repository GitHub.

Le varie curve del grafico descrivono tutte l’evoluzione del numero di casi sintomatici in Italia, ma sono diverse l’una dall’altra perché ogni curva è costruita a partire da dati sempre più consolidati. Ogni curva rappresenta quindi un fotografia parziale della realtà, tanto più parziale e imprecisa quanto più cerca di descrivere l’andamento nel passato più recente.

 

Come si può notare qualunque curva epidemica è caratterizzata da un evidente mancato consolidamento dei dati, evidenziato dal crollo di casi sintomatici che si riscontra in particolare nell’ultima settimana. Inoltre si può vedere che quando una curva epidemica costruita con dati non consolidati è stazionaria è legittimo supporre che in realtà la curva stia crescendo: la crescita non risulta visibile in tempo reale proprio per effetto del mancato consolidamento. Questo è già accaduto in maniera particolarmente evidente alla curva con i dati del 14 luglio che sembrava stazionaria nel periodo nella settimana 4-10 luglio salvo poi rivelarsi crescente. E accadrà molto probabilmente alla curva con i dati del 4 agosto, che sembra stazionaria nella settimana 22-28 luglio ma probabilmente è in fase di crescita.

Come stimare Rt a partire dalla curva per data inizio sintomi caratterizzata dalla presenza di dati non consolidati?

Ogni martedì l’Istituto Superiore di Sanità estrae i dati dalla piattaforma di Sorveglianza Integrata. Dal momento che i dati non sono consolidati la stima di Rt è ottenuta senza considerare i dati degli ultimi giorni e quindi come esplicitato in ogni report «il valore di Rt può essere attualmente stimato correttamente solo con un ritardo di X giorni». All’inzio si escludevano gli ultimi 14, poi sono diventati 9 e oggi gli ultimi giorni esclusi sono soltanto 6. Con i dati estratti dalla piattaforma l’Istituto Superiore di Sanità stima Rt attraverso un modello bayesiano descritto in questo articolo di Flavia Riccardo, Marco Ajelli et al. In generale volendo commentare la stima prodotta dall’Istituto Superiore di Sanità bisogna quindi quantomeno ricordare che:

  • è riferita al passato, e quindi l’indice stimato si riferisce alla situazione di almeno una decina di giorni prima rispetto alla data di pubblicazione del report
  • è ottenuta attraverso un modello bayesiano, e quindi va sempre letta all’interno degli intervalli di credibilità
  • è probabilmente leggermente sottostimata, perché nonostante il modello bayesiano sia robousto la stima è ottenuta a partire da dati almeno parzialmente non consolidati

Per chi volesse giocare con i dati e stimare in proprio Rt Vittorio Nicoletta ha realizzato Rt_Estimation un’applicazione che si basa sul pacchetto EpiEstim (lo stesso utilizzato a livello locale da molte regioni). I dati sulla data inizio sintomi dei nuovi casi con dettaglio regionale si possono estrarre dai grafici presenti nell’appendice dei report settimanali pubblicati sul portale Epicentro e uno storico dei dati italiani aggregati è disponibile repository GitHub di onData.

Attenzione, al di là delle potenzialità e dei limiti propri dell’indice Rt ben evidenziati in un articolo di David Adam, è importante ricordare la regola d’oro “Garbage In, Garbage Out”. In altri termini se i dati in ingresso non sono accurati non è necessariamente colpa del modello se la stima che ne viene fuori è poco affidabile. Come mostrato ad esempio in questo articolo di Michele Starnini et al. se al posto dei nuovi casi distribuiti per data inizio sintomi si utilizzassero i nuovi casi distribuiti per data di notifica si otterrebbero stime sensibilmente diverse.
Al di là dell’utilizzo di dati di scarsa qualità, che potrebbe compromettere significativamente la qualità della stima, ci sono da segnalare almeno altri due fattori importanti che influenzano la stima di Rt:
  • i casi importati, che devono essere considerati in maniera opportuna. Come recentemente chiarito dall’Istituto Superiore di Sanità in una nota metodologica essendo casi importati devono essere contati tra i potenziali infettori di nuovi casi locali, ma non tra i casi che hanno contratto l’infezione localmente.
  • il Serial Interval e cioè l’intervallo di tempo tra la data inizio sintomi di un caso indice e la data inizio sintomi dei casi secondari ad esso legati. La distribuzione del Serial Interval è di fondamentale importanza e come mostrato in questo recente articolo pubblicato su Science potrebbe variare anche sensibilmente da contesto a contesto e soprattutto potrebbe variare nel tempo

Purtroppo non sono al momento pubblicamente disponibili informazioni né sul numero né sulla distribuzione dei casi importati sintomatici, né sono disponibili informazioni aggiornate sulle catene di trasmissione italiane che consentano di stimare eventuali variazioni significative nel Serial Interval. Quindi anche soltanto per la mancanza di questi dati, qualunque stima di Rt  fatta in casa risulterà necessariamente diversa da quelle (più accurate) realizzate dall’Istituto Superiore di Sanità.

Ma non c’è alternativa a non considerare i dati non consolidati?

Nonostante l’inevitabile presenza di dati non consolidati, in Germania il Robert Koch Institut fornisce una stima di Rt con un solo giorno di ritardo. Questo è possibile grazie a una correzione dei dati non consolidati attraverso un modello di nowcasting, e per farsi un’idea di come funziona il nowcasting in campo epidemiologico si vedano ad esempio i lavori di Sarah F. McGough et al. e Jan van de Kassteele et al.
In alternativa è il caso di segnalare che è possibile utilizzare altri dati oltre a quelli dei nuovi casi distribuiti per data inizio sintomi. Come recentemente chiarito dall’Istituto Superiore di Sanità la stima di Rt può essere ottenuta anche utilizzando come indicatore la “data di ospedalizzazione“, un indicatore che potrebbe avere tempi di consolidamento inferiori rispetto a quello della data inizio sintomi. Anche in questo caso vale la la regola d’oro “Garbage In, Garbage Out”. I dati sui nuovi ricoveri giornalieri non vanno confusi con la variazione del numero di ospedalizzati totali ricavabile dai bollettini quotidiani della Protezione Civile: negli ospedali – come in qualunque sistema di code – i ricoverati totali possono diminuire o aumentare anche in presenza di un flusso di ricoveri costante. In ogni caso il numero di nuovi ricoveri giornalieri è disponibile soltanto come aggregato nazionale e i dati vanno estratti da un grafico presente nei report settimanali pubblicati sul portale Epicentro.
Dal grafico seguente (estratto del report con dati nazionali aggregati aggiornati al 28 luglio) si possono evidenziare due elementi interessanti:

  • da oltre un mese il numero di nuovi ricoveri è costante, un dato perfettamente compatibile con una stima di Rt vicina ad 1.
  • il grafico non riporta ricoveri successivi al 21 luglio, e quindi soltanto un confronto con i grafici presenti nei prossimi report consentirà di valutare il livello di consolidamento del dato.

 

 

[Aggiornamento 9 agosto] Effettuando un confronto con il report ISS con dati aggiornati al 4 agosto, si può notare che anche i dati sui ricoveri sembrano risentire di un significativo ritardo di notifica, difficilmente misurabile a causa della scarsa qualità dei grafici.