Approssimativo e distorto: tutti i limiti dell'indice Rt

Non sono chiare le finestre temporali per il conteggio, la distribuzione della contagiosità non viene verificata: tutte le falle dell'indice Rt utilizzato in Italia per i casi di Covid. «Gli stessi autori del modello utilizzato ammettono limiti metodologici che portano a critiche sull’efficienza e la correttezza della procedura di stima. Invece le autorità di salute pubblica in Italia hanno apparentemente trascurato questi ammonimenti». Parla l'ordinario di statistica della Lumsa, il professor Antonello Maruotti.

Attualità 07_04_2021

La nostra vita è ormai pesantemente condizionata da un numerino che finisce in prima pagina di tutti i quotidiani: l’indice Rt. Qualcuno - non certo il Parlamento della Repubblica e nemmeno un’evidenza scientifica - ha deciso che quando il fatidico indice diventa un “1 virgola”, la libertà delle persone può essere compressa. Il punto è che ogni modello algoritmico può essere realizzato più o meno bene, e porta con sé delle criticità. Insomma non è un oracolo infallibile. Fin qui niente di strano, a meno che qualcuno non decida di trasformarlo da strumento statistico a mezzo di coercizione. A non essere particolarmente soddisfatto di questo indice, è il professor Antonello Maruotti, Ordinario di Statistica della Libera Università Maria Santissima Assunta (LUMSA) di Roma, che ci ha aiutato ad evidenziarne le criticità.

Professor Maruotti, potrebbe anzitutto spiegare in modo semplice a cosa serve normalmente un indice Rt?
Il numero di riproduzione di una malattia infettiva (Rt) è il numero medio di infezioni trasmesse da ogni individuo infetto in una popolazione in cui ogni soggetto è suscettibile all’infezione. Tale valore è funzione della probabilità di trasmissione per singolo contatto tra una persona infetta ed una suscettibile, del numero dei contatti della persona infetta e della durata dell'infettività.

La convinzione diffusa è che l’indice Rt sia una sorta di oracolo infallibile, che fotografa in modo perfetto la realtà. È così o esso, come tutti i modelli algoritmici, dipende da come viene costruito?
Rt è un indice molto importante in epidemiologia, ci fornisce una fotografia dell’andamento dell’epidemia, se correttamente stimato. Richiede dati consolidati per poter essere stimato. Infatti, il valore di Rt che ci viene fornito settimanalmente si riferisce alle due settimane precedenti, fornendo quindi una fotografia non attuale dell’evoluzione dell’epidemia.

In pratica, il valore Rt di oggi non è affatto quello di oggi. Ma a parte questo, le stime fornite sono inequivocabili?
Ovviamente, essendo una stima ottenuta da un modello complesso, Rt necessita dati di qualità elevata e può variare anche di molto al variare del modello assunto per la sua stima. Colleghi di Palermo e Firenze utilizzano modelli diversi da quello ufficiale, ottenendo quindi stime diverse da quelle su cui vengono prese le decisioni sulle chiusure/aperture.

Ci può descrivere quali sono, a suo avviso, gli aspetti più problematici dell’indice Rt in uso?
Il modello di riferimento è quello proposto da Cori e al. (2013)[1] che richiede la definizione iniziale di importanti quantità necessarie alla stima di Rt. In particolare, le questioni principali riguardano: la finestra temporale su cui avviene la stima; il modello probabilistico scelto per descrivere la tendenza del numero di nuovi casi (incidenza); la distribuzione probabilistica scelta per approssimare il profilo di contagiosità, ovvero il profilo degli intervalli di tempo tendenziali fra due generazioni di contagio.

Iniziamo con le finestre temporali.
Finestre temporali piccole, ad esempio di alcuni giorni, portano al rilevamento rapido dei cambiamenti nella trasmissione, ma sono anche più a rischio per la presenza di rumore e dati anomali. Finestre temporali ampie, ad esempio di un mese, portano invece ad avere informazioni sull’andamento della trasmissione dell’epidemia, ma con il rischio di non intervenire in modo tempestivo, laddove necessario. Nel lavoro originale viene proposto un metodo per la definizione della finestra temporale ottimale, ma come questo sia tenuto in conto in Italia è al momento oscuro.

Secondo aspetto: la contagiosità.
La distribuzione di contagiosità nel tempo, del numero di nuovi casi, segue un processo di Poisson, quindi un processo di conteggio. Questa assunzione del modello deve essere verificata poi sui dati reali. Infatti è ampiamente noto nella letteratura statistica che le stime sono distorte se si verifica una sovradispersione nei dati, cioè quando le assunzioni del processo di Poisson non vengono soddisfatte.

E questa verifica viene realizzata?
No, non viene fatta, come non ne vengono fatte su altrettanto importanti assunzioni alla base del modello utilizzato.

Niente verifica, dunque. Poi abbiamo la distribuzione probabilistica del tempo di generazione.
Questo terzo punto è di rilevanza assoluta poiché determina in modo decisivo i livelli di stima di Rt. Per questa ragione, un’errata specificazione del profilo di contagiosità può causare conseguenze critiche sull’efficienza e la correttezza della procedura di stima. Gli autori del lavoro originale sono consapevoli di questi limiti metodologici, e ne discutono approfonditamente nel loro lavoro. Al contrario, i responsabili decisionali delle autorità di salute pubblica in Italia hanno apparentemente trascurato questi ammonimenti.

Possiamo dire che c’è stata una certa precipitazione del ritenere l’indice Rt uno strumento adeguato per decisioni che riguardano la vita di intere nazioni?
Assolutamente sì. Basti pensare che il profilo di contagiosità viene approssimato basandosi su soli 90 casi monitorati in Lombardia a febbraio 2020 e poi applicato in modo indiscriminato a tutte le regioni, che sappiamo essere molto eterogenee. Non solo, l’approssimazione proposta è discutibile, se non addirittura poco sensata, alla luce dei dati disponibili. Va ricordato inoltre che, per la stima di Rt, non esistono metodi “gold standard”. Il lavoro di Cori et al. (2013) è sicuramente una pietra miliare nella ricerca epidemiologica. Tuttavia, come molti altri modelli, si basa su ipotesi che devono essere verificate e soddisfatte per evitare deduzioni fuorvianti. In Italia, non solo queste ipotesi vengono trascurate, ma le stime di Rt sono utilizzate ampiamente oltre la loro reale interpretazione, in modo del tutto inappropriato.

Lei ha anche messo in luce che i valori Rt comunicati non tengono conto degli intervalli di confidenza, cioè un intervallo di valori plausibili che con una certa probabilità copre il vero parametro considerato.
Sì. Come le stime vengono comunicate e percepite dall’opinione pubblica è in effetti un problema. Basti pensare al “caso Molise”. L’Rt puntuale del Molise è stato per molte settimane quello più alto tra le regioni italiane, ma la sua stima era sempre accompagnata da intervalli di confidenza/credibilità così ampi, da valori molto sotto 1 a valori oltre 2, al punto da rendere tale stima completamente inaffidabile, inutilizzabile: un chiaro segno dell’inappropriatezza del modello utilizzato per la sua stima.

Lei, di recente, ha parlato di “conguagli”: si tratta in pratica di un eccesso di contagiati, che dopo un po’ vengono appunto “conguagliati”? Se sì, tenendo conto che la Toscana è divenuta zona rossa per 251 contagiati su 100 mila (uno solo in più rispetto a quelli “consentiti”), e che altre regioni sono state in passato messe in rosso o arancione per un pelo, quanto possono pesare questi errori che vengono poi liquidati con un conguaglio?
A cosa siano dovuti questi conguagli non è semplice da capire. Ritengo sia dovuto a problemi di notifica. Ad esempio, nella provincia di Roma vengono registrati 184.289 casi totali da inizio pandemia al 16/03/2021. Il giorno successivo sono 184.237, cioè 52 casi in meno. A questo si aggiunge una elevata variabilità delle notifiche di nuovi casi, e questo può giocare un ruolo nella valutazione dei vari indicatori di monitoraggio, laddove questi conguagli si verifichino a cavallo del periodo oggetto di monitoraggio.

[1] Cori, A., Ferguson, N. M., Fraser, C., & Cauchemez, S. (2013). A new framework and software to estimate time-varying reproduction numbers during epidemics. American Journal of Epidemiology, 178(9), 1505-1512.