Crisi della riproducibilità: facciamo il punto sulle cause

img
©Credit PIXNIO
L’idea che esista una “crisi della riproducibilità” dei risultati scientifici (di cui abbiamo iniziato a parlare nel numero scorso) ha guadagnato sempre più piede a partire dal famoso articolo del 2005 in cui l’epidemiologo della Stanford University J. P. A. Ioannidis[1] spiegava che probabilmente la metà dei risultati descritti negli articoli scientifici, per lo meno in ambito biomedico, è sbagliata. L’articolo è stato ampiamente citato, discusso, criticato, commentato fino a che il dibattito sulla “crisi della scienza” è arrivato sulle pagine dell’Economist nel 2016 (ne abbiamo parlato, all’epoca, sul n.16 di questa rubrica), ed esiste ormai persino un’ampia voce di Wikipedia sulla “Replicability Crisis”.

Anche se, come vedremo, non tutti sono d’accordo che si tratti di una vera e propria crisi, vale la pena provare a capire quali possano essere le sue cause: vedremo che sono tutte cose di cui in realtà abbiamo già parlato e che riprenderemo brevemente per raccoglierle in un quadro complessivo.

La prima, e più ovvia, causa diretta della non riproducibilità di un risultato è che questo sia semplicemente sbagliato. I lettori di questa rubrica dovrebbero essere ormai consapevoli che di tanto in tanto qualche risultato sbagliato passi tutti i controlli prima della pubblicazione e finisca nella letteratura scientifica. Molto di recente uno studio canadese riportava di aver rilevato un’altissima incidenza (uno su mille) di miocarditi e pericarditi tra le persone vaccinate contro il COVID–19 con i vaccini a RNA messaggero (Moderna e Pfizer-BioNTech). In realtà i ricercatori avevano incredibilmente sbagliato a calcolare il numero di vaccinati; i lettori del preprint pubblicato su MedrXiv se ne sono accorti subito (la reale incidenza è circa 1/25000), gli autori si sono scusati e il preprint è stato ritirato prima ancora della pubblicazione formale, non senza aver aggiunto ulteriore confusione in un campo in cui non se ne sentiva davvero la mancanza.

In qualche caso, come abbiamo avuto modo di raccontare più volte, si tratta di veri imbrogli: anche gli scienziati a volte barano. È bene ricordare che le falsificazioni vere e proprie sono davvero rare, e più spesso i ricercatori “cucinano” solo un po’ i dati, per usare l’espressione coniata nel 1983 da A. Franklin[2], perché tornino meglio con quello che si aspettano. Esiste persino un acronimo in inglese, QRP, che sta per “Questionable Research Practices”: pratiche discutibili nella ricerca, non vere truffe. Queste comprendono anche comportamenti come sfruttare indebitamente il lavoro dei dottorandi, o includere tra gli autori di un articolo persone che non hanno nulla a che fare con il lavoro presentato, ma la pratica plausibilmente più rilevante è il “p-hacking”. Ricordate cos’è p? È la probabilità che il risultato che ho ottenuto sia dovuto al caso, nell’ipotesi che l’effetto che sto studiando non esista (v. anche l’articolo di Presciuttini in questo numero di Query). Più basso è p, più è plausibile che quello che osservo sia il risultato di un reale effetto e non del caso.

Pasticciare un po’ con i dati in modo da migliorare il p del mio esperimento, per esempio eliminando come “spuri” dati che non tornano tanto, oppure andare avanti a fare misure fino a che una fluttuazione non abbassa un po’ il p, è una tentazione a volte irresistibile, specie se siamo convinti che il nostro risultato sia corretto, e magari lo facciamo senza neanche rendercene conto. Ne abbiamo parlato molte volte, ed è evidente che se aumento il rischio che i risultati significativi siano in realtà frutto del caso, aumento il numero di lavori che non potranno essere replicati.

Tra i possibili colpevoli della mancata replicabilità di uno studio è spesso anche additato il valore di soglia “standard” p<0.05 per la significatività statistica, che comunque implica un 5% di falsi positivi, cioè effetti casuali scambiati per reali. In più, l’eccessiva importanza data alla significatività tende a far ragionare in termini di “sì/no” quando sarebbe meglio un giudizio più sfumato (ne abbiamo parlato diffusamente nel n. 37).

image
©chenspec da Pixabay
Ancora: specie in alcune discipline come la psicologia sociale, gli studi hanno spesso bassa “potenza statistica”, un concetto complementare a quello di significatività. La potenza statistica di uno studio è la sua capacità di mettere in evidenza un effetto, per quanto piccolo, quando questo effetto c’è davvero (detto più rigorosamente, è la probabilità che un test statistico ha di falsificare l’ipotesi nulla quando l’ipotesi nulla è effettivamente falsa). L’argomentazione qui è un po’ più complicata e ne riparleremo, ma si può mostrare[3] come studi a bassa potenza da un lato riducano la riproducibilità per ragioni puramente statistiche, dall’altro esacerbino gli effetti di altri meccanismi come il publication bias.

Mettendo tutto insieme, sembra proprio che le forze all’opera dietro tutto questo siano i soliti sospetti: la spinta a pubblicare il più possibile, unita al fatto che risultati nuovi, positivi e con significatività statistica elevata abbiano più probabilità di essere pubblicati. Un problema quindi che deriva da qualcosa di strutturale, e che richiede soluzioni strutturali e non rimedi puntuali come aumentare la soglia di p.

Dal “grido d’allarme” di Ioannidis nel 2005 molto lavoro è stato fatto per cercare di capire cosa stia succedendo, e il punto di vista dei ricercatori è oggi più articolato. Da un lato sembra che gli effetti delle QRP, per quanto presenti, siano in realtà poco importanti per la riproducibilità in generale; dall’altro si vede che il problema potrebbe essere meno grave di come possa apparire ad una prima analisi. Per esempio, una riproducibilità bassa potrebbe essere una conseguenza inevitabile della ricerca su temi in cui la probabilità di trovare un effetto reale è a sua volta relativamente bassa (un esempio è la ricerca farmacologica)[4]. Oppure ancora, potrebbe essere l’indicatore di un sano “avventurismo” dei ricercatori in campi in cui il risultato non è garantito.

L’idea di una crisi della riproducibilità si deve quindi collocare in un contesto più ampio di riflessione critica sulle prassi scientifiche, per capire se ci sia davvero una crisi e di che portata questa sia, se in qualche modo quello che si osserva sia almeno parzialmente intrinseco al lavoro scientifico e infine come fare per migliorare la situazione. Proveremo a farlo nel prossimo numero.

Note

1) J.P.A. Ioannidis, “Why Most Published Research Findings Are False”, PLoS Medicine 2(8):e124 (2005).
2) A. Franklin, “Forging, cooking, trimming and riding on the bandwagon” Am. J. Phys. 52(9):786–793 (1983).
3) K.S. Button et al., “Power failure: why small sample size undermines the reliability of neuroscience” Nature Reviews 14:365 (2013).
4) R. Ulrich e J. Miller, “Questionable research may have little effect on replicability” eLife 9:e58237 (2020).
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',