Nella primavera del 2010 usciva Query, e il primo numero di questa rubrica era dedicato al concetto di “significatività statistica”. Con un esempio (inventato) di sperimentazione farmacologica e uno (autentico) di studio statistico dell’astrologia spiegavamo in che modo gli scienziati cercano di non farsi fregare dalla casualità:
«Niente ci garantisce che i tre a cui ho somministrato uno sciroppo magari inutile non siano guariti più rapidamente per pura fortuna, o che quelli del gruppo di controllo non siano stati, sempre per caso, più lenti del solito a guarire. Con così pochi soggetti nel campione, la probabilità che la differenza tra i due gruppi sia dovuta al caso e non alla reale efficacia del medicinale è troppo alta: si dice (eccoci arrivati al punto) che il risultato non è statisticamente significativo. Se però selezioniamo un numero sufficientemente grande di soggetti, la probabilità che una gran parte di essi guarisca per caso, sensibilmente prima (o dopo) il tempo di solito necessario, diminuisce. È molto meno probabile selezionare casualmente diciamo cento soggetti tutti particolarmente resistenti al raffreddore piuttosto che due o tre: la significatività statistica dipende perciò dal numero dei soggetti coinvolti nell’esperimento».
Sono ormai passati nove anni, e nel marzo scorso è comparso su Nature un articolo dal titolo “Mandare in pensione la significatività statistica”[1], firmato da più di 800 ricercatori di tutte le discipline e di tutto il mondo. Contemporaneamente è uscito un numero speciale di The American Statistician, la rivista dell’American Statistical Association, interamente dedicato a una critica del concetto di significatività statistica e ad «andare oltre p<0.05» (vediamo tra un momento cosa significa).
Cos’è successo?
Vedremo tra poco che in realtà non c’è niente di nuovo, è solo forse giunto il momento di affrontare un problema di cui si discute da anni. Prima, però, un piccolo ripasso.
Il risultato di uno studio scientifico si dice “statisticamente significativo” se la probabilità di ottenere proprio quel risultato dalla sola casualità è sufficientemente bassa. Per esempio, se sto studiando l’effetto della fase della Luna sull’incidenza di una malattia, e trovo più casi con la Luna nuova che con la Luna piena, dovrò chiedermi se questo non possa essere semplicemente un effetto della naturale variabilità del numero di casi della malattia in un certo intervallo di tempo.
Un modo comodo ed estremamente diffuso di misurare la significatività statistica fa uso del p-value, un numero che viene definito (semplificando un po’) come la probabilità di ottenere un risultato come quello trovato in assenza del fenomeno che sto studiando. Per tornare all’esempio, è la probabilità di ottenere proprio quella differenza tra Luna piena e Luna nuova in assenza di ogni influenza lunare, solo per caso; se questa probabilità è sufficientemente bassa, allora è plausibile che un’influenza della Luna ci sia per davvero.
I più attenti avranno già notato un problema in questo ragionamento: abbiamo usato due volte l’espressione «sufficientemente bassa», che è “sufficientemente” vaga. In effetti la soglia è completamente arbitraria e convenzionale: in moltissimi casi nelle scienze biomediche si usa la soglia P<0.05, cioè una probabilità di ottenere un risultato analogo a quello trovato nello studio per sola casualità più bassa del 5%.
Ora, non c’è niente di magico nel numero 0.05: semplicemente è il valore usato da uno dei padri fondatori della statistica moderna, Ronald Fischer, in un famoso manuale del 1925. In altri contesti a volte si usano valori diversi, per esempio 0.01, ma 0.05 è di gran lunga il valore più usato nella pratica.
Il problema principale, fanno notare gli autori dell’articolo di Nature, è che la soglia P<0.05 viene sempre più interpretata come una distinzione netta tra studi significativi e studi non significativi, e (ancora peggio) questa distinzione è tradotta in una certezza: se il risultato non è statisticamente significativo, allora l’effetto non c’è. Questo è un errore tanto grave quanto diffuso: l’articolo cita quattro studi che cercano proprio questo errore nella letteratura scientifica, trovandolo in più della metà degli articoli presi in considerazione (402 su 791 in tutto).
Sono naturalmente due problemi diversi: il primo è un’interpretazione troppo radicale di un criterio arbitrario, il secondo un vero e proprio errore metodologico, ma la causa comune è probabilmente il peso eccessivo dato all’idea di significatività statistica.
Cominciamo dal primo punto. Il valore p=0.05 è usato un po’ dappertutto come standard, ma non ha, come dicevamo, un significato particolare. In realtà la preoccupazione degli statistici sull’uso sconsiderato del p-value non è una novità, ma il dibattito ha cominciato ad avere visibilità negli ultimi anni. Un editoriale del 2016 di The American Statistician cita un ragionamento circolare esposto dallo statistico americano George Cobb nel 2014[2]:
«Domanda: Perché così tante università insegnano a usare come soglia il valore p=0.05?
Risposta: Perché è il valore che la comunità scientifica e gli editor delle riviste usano.
Domanda: Perché così tanta gente usa p=0.05?
Risposta: Perché è quello che gli è stato insegnato all’università».
Nella pratica, fanno notare gli autori, non bisognerebbe mai dire che uno studio è statisticamente significativo o no, e meno che mai usare questo criterio in modo automatico. Il p-value è uno dei modi per misurare quanto uno studio è significativo, e mettere una soglia tanto precisa quanto arbitraria è sbagliato. Naturalmente non bisogna né buttare via uno strumento statistico utile come il p-value, né sostituirlo con un altro parametro che abbia una funzione simile: quello che si deve abbandonare è la “dicotomizzazione”, l’idea che due studi, uno significativo e l’altro no, appartengano a due categorie diverse, mentre sono solo in due posizioni, magari molto vicine, su una scala continua. Come fa notare Nicole Lazar, editor-in-chief di The American Statistician, bisogna ritornare ad accettare l’incertezza come una parte fondamentale della conoscenza scientifica e dimenticare la certezza fasulla suggerita dal mettere una linea di confine precisa tra il “significativo” e il “non-significativo”.[3]
Quando poi, venendo al secondo punto, la non-significatività di uno studio è tradotta in un risultato negativo siamo di fronte a un vero e proprio errore metodologico. L’esempio che fanno gli autori mostra molto bene il problema. Prendiamo due studi che misurano la correlazione tra l’assunzione di un farmaco e un possibile effetto collaterale, per esempio un accresciuto rischio di problemi cardiaci. Supponiamo che entrambi gli studi osservino che il rischio cresce del 20%, ma che uno sia statisticamente significativo e l’altro no: usando la significatività come criterio, dovremmo concludere che i due studi hanno risultati opposti (in uno la correlazione c’è, nell’altro no) anche se trovano esattamente lo stesso valore.
La cura, suggeriscono gli autori, è anche in questo caso smettere di usare categorizzazioni rigide e discutere più approfonditamente le considerazioni statistiche negli articoli, insieme ad altri aspetti potenzialmente più importanti per la qualità del risultato di uno studio come la qualità dei dati o la corretta progettazione degli esperimenti.
La fallacia di interpretare la mancanza di significatività (o meglio, a questo punto sappiamo, il semplice fatto che il p-value è inferiore a una certa soglia arbitraria) come la prova dell’assenza di un effetto o di una correlazione è però solo uno degli errori statistici che si trovano con frequenza allarmante nella letteratura scientifica: da un lato strumenti statistici sempre più sofisticati richiedono esperienza e capacità che non tutti i gruppi di ricerca hanno, dall’altra apparentemente molti ricercatori fanno errori anche gravi che mostrano una mancanza di familiarità con la statistica da parte di molte comunità. Ne parleremo nel prossimo numero.
«Niente ci garantisce che i tre a cui ho somministrato uno sciroppo magari inutile non siano guariti più rapidamente per pura fortuna, o che quelli del gruppo di controllo non siano stati, sempre per caso, più lenti del solito a guarire. Con così pochi soggetti nel campione, la probabilità che la differenza tra i due gruppi sia dovuta al caso e non alla reale efficacia del medicinale è troppo alta: si dice (eccoci arrivati al punto) che il risultato non è statisticamente significativo. Se però selezioniamo un numero sufficientemente grande di soggetti, la probabilità che una gran parte di essi guarisca per caso, sensibilmente prima (o dopo) il tempo di solito necessario, diminuisce. È molto meno probabile selezionare casualmente diciamo cento soggetti tutti particolarmente resistenti al raffreddore piuttosto che due o tre: la significatività statistica dipende perciò dal numero dei soggetti coinvolti nell’esperimento».
Sono ormai passati nove anni, e nel marzo scorso è comparso su Nature un articolo dal titolo “Mandare in pensione la significatività statistica”[1], firmato da più di 800 ricercatori di tutte le discipline e di tutto il mondo. Contemporaneamente è uscito un numero speciale di The American Statistician, la rivista dell’American Statistical Association, interamente dedicato a una critica del concetto di significatività statistica e ad «andare oltre p<0.05» (vediamo tra un momento cosa significa).
Cos’è successo?
Vedremo tra poco che in realtà non c’è niente di nuovo, è solo forse giunto il momento di affrontare un problema di cui si discute da anni. Prima, però, un piccolo ripasso.
Il risultato di uno studio scientifico si dice “statisticamente significativo” se la probabilità di ottenere proprio quel risultato dalla sola casualità è sufficientemente bassa. Per esempio, se sto studiando l’effetto della fase della Luna sull’incidenza di una malattia, e trovo più casi con la Luna nuova che con la Luna piena, dovrò chiedermi se questo non possa essere semplicemente un effetto della naturale variabilità del numero di casi della malattia in un certo intervallo di tempo.
Un modo comodo ed estremamente diffuso di misurare la significatività statistica fa uso del p-value, un numero che viene definito (semplificando un po’) come la probabilità di ottenere un risultato come quello trovato in assenza del fenomeno che sto studiando. Per tornare all’esempio, è la probabilità di ottenere proprio quella differenza tra Luna piena e Luna nuova in assenza di ogni influenza lunare, solo per caso; se questa probabilità è sufficientemente bassa, allora è plausibile che un’influenza della Luna ci sia per davvero.
I più attenti avranno già notato un problema in questo ragionamento: abbiamo usato due volte l’espressione «sufficientemente bassa», che è “sufficientemente” vaga. In effetti la soglia è completamente arbitraria e convenzionale: in moltissimi casi nelle scienze biomediche si usa la soglia P<0.05, cioè una probabilità di ottenere un risultato analogo a quello trovato nello studio per sola casualità più bassa del 5%.
Ora, non c’è niente di magico nel numero 0.05: semplicemente è il valore usato da uno dei padri fondatori della statistica moderna, Ronald Fischer, in un famoso manuale del 1925. In altri contesti a volte si usano valori diversi, per esempio 0.01, ma 0.05 è di gran lunga il valore più usato nella pratica.
Il problema principale, fanno notare gli autori dell’articolo di Nature, è che la soglia P<0.05 viene sempre più interpretata come una distinzione netta tra studi significativi e studi non significativi, e (ancora peggio) questa distinzione è tradotta in una certezza: se il risultato non è statisticamente significativo, allora l’effetto non c’è. Questo è un errore tanto grave quanto diffuso: l’articolo cita quattro studi che cercano proprio questo errore nella letteratura scientifica, trovandolo in più della metà degli articoli presi in considerazione (402 su 791 in tutto).
Sono naturalmente due problemi diversi: il primo è un’interpretazione troppo radicale di un criterio arbitrario, il secondo un vero e proprio errore metodologico, ma la causa comune è probabilmente il peso eccessivo dato all’idea di significatività statistica.
Cominciamo dal primo punto. Il valore p=0.05 è usato un po’ dappertutto come standard, ma non ha, come dicevamo, un significato particolare. In realtà la preoccupazione degli statistici sull’uso sconsiderato del p-value non è una novità, ma il dibattito ha cominciato ad avere visibilità negli ultimi anni. Un editoriale del 2016 di The American Statistician cita un ragionamento circolare esposto dallo statistico americano George Cobb nel 2014[2]:
«Domanda: Perché così tante università insegnano a usare come soglia il valore p=0.05?
Risposta: Perché è il valore che la comunità scientifica e gli editor delle riviste usano.
Domanda: Perché così tanta gente usa p=0.05?
Risposta: Perché è quello che gli è stato insegnato all’università».
Nella pratica, fanno notare gli autori, non bisognerebbe mai dire che uno studio è statisticamente significativo o no, e meno che mai usare questo criterio in modo automatico. Il p-value è uno dei modi per misurare quanto uno studio è significativo, e mettere una soglia tanto precisa quanto arbitraria è sbagliato. Naturalmente non bisogna né buttare via uno strumento statistico utile come il p-value, né sostituirlo con un altro parametro che abbia una funzione simile: quello che si deve abbandonare è la “dicotomizzazione”, l’idea che due studi, uno significativo e l’altro no, appartengano a due categorie diverse, mentre sono solo in due posizioni, magari molto vicine, su una scala continua. Come fa notare Nicole Lazar, editor-in-chief di The American Statistician, bisogna ritornare ad accettare l’incertezza come una parte fondamentale della conoscenza scientifica e dimenticare la certezza fasulla suggerita dal mettere una linea di confine precisa tra il “significativo” e il “non-significativo”.[3]
Quando poi, venendo al secondo punto, la non-significatività di uno studio è tradotta in un risultato negativo siamo di fronte a un vero e proprio errore metodologico. L’esempio che fanno gli autori mostra molto bene il problema. Prendiamo due studi che misurano la correlazione tra l’assunzione di un farmaco e un possibile effetto collaterale, per esempio un accresciuto rischio di problemi cardiaci. Supponiamo che entrambi gli studi osservino che il rischio cresce del 20%, ma che uno sia statisticamente significativo e l’altro no: usando la significatività come criterio, dovremmo concludere che i due studi hanno risultati opposti (in uno la correlazione c’è, nell’altro no) anche se trovano esattamente lo stesso valore.
La cura, suggeriscono gli autori, è anche in questo caso smettere di usare categorizzazioni rigide e discutere più approfonditamente le considerazioni statistiche negli articoli, insieme ad altri aspetti potenzialmente più importanti per la qualità del risultato di uno studio come la qualità dei dati o la corretta progettazione degli esperimenti.
La fallacia di interpretare la mancanza di significatività (o meglio, a questo punto sappiamo, il semplice fatto che il p-value è inferiore a una certa soglia arbitraria) come la prova dell’assenza di un effetto o di una correlazione è però solo uno degli errori statistici che si trovano con frequenza allarmante nella letteratura scientifica: da un lato strumenti statistici sempre più sofisticati richiedono esperienza e capacità che non tutti i gruppi di ricerca hanno, dall’altra apparentemente molti ricercatori fanno errori anche gravi che mostrano una mancanza di familiarità con la statistica da parte di molte comunità. Ne parleremo nel prossimo numero.
Note
1) V. Amrhein, S. Greenland, B. McShane et al., “Retire Statistical Significance” Nature 567:305–307 (2019)
2) R.L. Wasserstein, N.A. Lazar, “The ASA’s Statement on p-Values: Context, Process, and Purpose” The American Statistician 70:129–131 (2016)
3) R.L. Wasserstein, N.A. Lazar (on behalf of the American Statistical Association Board of Directors), “ASA Statement on Statistical Significance an P-Values” The American Statistician 70:131–133 (2016)