Di cosa parliamo quando parliamo di riproducibilità nella scienza

Uno spettro si aggira per i laboratori e gli uffici di scienziati e ricercatori: lo spettro della “crisi della riproducibilità”. Tutte le principali riviste scientifiche hanno in questi ultimi anni iniziato una battuta di caccia contro questo spettro: editoriali, articoli di commento e veri e propri studi cercano di capire se davvero gran parte della letteratura scientifica sia da buttare, se la situazione stia peggiorando in modo incontrollato e cosa si possa fare per mettervi rimedio.

Che cosa sta succedendo?

I lettori di questa rubrica sanno che la riproducibilità (di una misura, di un esperimento, di un risultato) è una delle basi della costruzione della conoscenza scientifica: il processo di peer review assicura un minimo di qualità dei lavori pubblicati su una rivista scientifica, ma non può in alcun modo garantire che il risultato sia corretto; questa conferma può venire solo dalla replicazione dello studio da parte di altri ricercatori.

Si può quindi immaginare il disagio nella comunità scientifica quando, a partire dai primi anni 2010, hanno cominciato ad apparire sempre più numerosi studi che, tentando sistematicamente di riprodurre risultati importanti in diverse discipline, fallivano in una sconcertante quantità di casi. Lo studio più famoso è probabilmente il tentativo di replicazione di 100 studi di psicologia pubblicati su tre tra le riviste più importanti nel campo. Il risultato, pubblicato su Science nel 2015, fu che solo un deludente 39% degli studi poteva essere replicato con successo[1].

image
Il libro di Stuart Ritchie che ricostruisce il problema della mancata replica di risultati scientifici.
Ancora più inquietante il risultato di uno studio promosso dalla Amgen, una multinazionale biotecnologica, e descritto nel 2012 su Nature[2]. Su 53 studi pre-clinici sul cancro, definiti “pietre miliari” della disciplina, fu possibile riprodurre i risultati di soltanto sei (cogliamo l’occasione per un consiglio di lettura: la faccenda è raccontata con molti esempi e tutti i riferimenti bibliografici nel secondo capitolo del recente Science Fictions di Stuart Ritchie, un giovane psicologo del King’s College di Londra[3]).

In realtà la cosa era nell’aria già da un po’, annunciata per esempio da un famoso articolo dell’epidemiologo della Stanford University John P. A. Ioannidis, Why Most Published Research Findings Are False: “Perché la maggior parte dei risultati di ricerche pubblicati sono falsi”, pubblicato nel 2005, e di cui parleremo in seguito[4].

La situazione è davvero così drammatica? La faccenda è importante e complicata, ed esistono varie opinioni in merito; ne parleremo nei prossimi due o tre numeri della rubrica. Ora cominceremo dall’inizio: cosa intendiamo, esattamente, con “riproducibilità”?

Come abbiamo notato già nel numero 6 di Query, la metrologia distingue tra “ripetibilità”, che si riferisce alla stessa operazione di misura nelle stesse condizioni, e “riproducibilità”, che si riferisce a misure della stessa quantità effettuate in condizioni diverse; due concetti definiti con precisione. Qui però stiamo parlando di studi scientifici complessi che non solo non si limitano alle sole operazioni di misura, ma hanno l’ambizione di contribuire alla costruzione della conoscenza scientifica: la faccenda si complica. Una confusione aggiuntiva è generata dal fatto che, almeno in inglese, i termini corrispondenti “reproducibility” e “replicability” a proposito della ricerca scientifica sono usati a volte con significato invertito.

Steven N. Goodman, Daniele Fanelli e lo stesso Ioannidis, tre dei massimi esperti in questo tipo di “meta-ricerca”, hanno cercato di mettere ordine nel guazzabuglio in un articolo del 2016[5] che useremo ora come guida, seguendo il ragionamento degli autori.

Goodman, Fanelli e Ioannidis distinguono tre tipi di riproducibilità: la riproducibilità dei metodi, quella dei risultati e la riproducibilità “inferenziale”. Si vedrà che, anche se in linea di principio i concetti sembrano chiari, operativamente le cose si complicano.

La riproducibilità dei metodi si ottiene quando le procedure e i metodi sono descritti con sufficiente dettaglio, in modo che l’esperimento possa essere ripetuto in modo identico, con gli stessi dati e gli stessi strumenti, ottenendo lo stesso risultato. Questo tipo di riproducibilità coinvolge principalmente il livello di dettaglio e la precisione con cui gli studi sono descritti, e più ancora quanto indietro nella catena di elaborazione si debba andare nel pubblicare i dati. È sufficiente riportare i dati in qualche forma processata e aggregata o è necessario mettere a disposizione anche i dati “grezzi” così come escono dallo strumento di misura?

La riproducibilità dei risultati è in un certo senso più importante: si riferisce alla possibilità di fare un nuovo studio, con gli stessi metodi ma su “oggetti” diversi (dati, campioni, pazienti, dipende dal tipo di studio), ottenendo risultati analoghi. In questo caso la replicazione corrobora ulteriormente il risultato del primo studio, dato che ne estende in qualche modo la validità a condizioni diverse da quelle originali. In questo caso un aspetto importante è che nella maggior parte dei casi il sistema in esame (per esempio in uno studio clinico, in cui le risposte dei pazienti a una terapia non sono mai uguali tra loro) non è deterministico, ma governato dalla probabilità. Come abbiamo discusso in passato, in questi casi si usa la significatività statistica come criterio per trasformare un “continuum” in un valore binario (l’ipotesi in esame è confermata oppure no). Il problema qui si vede immediatamente con un esempio: se una serie di studi non riesce mai a raggiungere la significatività statistica, questo è generalmente interpretato come una serie di replicazioni di un risultato negativo. Tuttavia, non è affatto detto che mettendo insieme tutti i dati nel modo giusto (come si fa nelle metanalisi) il risultato non venga ribaltato: gli autori fanno l’esempio del tamoxifen, un farmaco antitumorale. Su 26 studi clinici, solo uno riportava una differenza statisticamente significativa nella sopravvivenza al cancro al seno tra le pazienti trattate con il farmaco e con il placebo. Una metanalisi, in cui i dati venivano esaminati tutti assieme, dimostrò invece come la terapia producesse una riduzione della mortalità del 20%, in modo statisticamente significativo.

Il succo del discorso di Goodman, Fanelli e Ioannidis in questo caso è che in situazioni dove la componente casuale è importante sarebbe meglio ragionare in termini di conoscenza accumulata piuttosto che in termini binari di replicazione o meno di un risultato.

La riproducibilità inferenziale si riferisce alla «possibilità di trarre conclusioni qualitativamente simili da una replicazione indipendente di uno studio o da una rianalisi dello stesso studio»; si riferisce quindi direttamente al contributo di conoscenza portato dallo studio, piuttosto che ai suoi dettagli specifici. Facciamo un esempio.

Quando diciamo “affermazioni straordinarie richiedono prove straordinarie” intendiamo, per esempio, che non basta qualche esperimento magari non rigorosissimo per dimostrare che esiste la telepatia, dato che la sua esistenza va contro molte conoscenze scientifiche assodate. Tuttavia, un parapsicologo potrebbe avere una valutazione differente del peso relativo dei suoi esperimenti e della conoscenza accumulata, e trarre conclusioni opposte dal risultato di un esperimento di lettura del pensiero. Allo stesso modo, ricercatori diversi potrebbero avere opinioni diverse sul ruolo di uno specifico studio, ed essere in disaccordo sulle conclusioni da trarne. Come concludono gli autori, «la riproducibilità inferenziale potrebbe essere un ideale irraggiungibile, e in alcune situazioni neanche desiderabile»: è attraverso questo tipo di disaccordo tra scienziati che si trovano i punti deboli e la scienza progredisce.

Fatta chiarezza sulla terminologia (e, come spesso succede, avendo mostrato che le cose sono più complicate di come potrebbero apparire a prima vista), nel prossimo numero proseguiremo il discorso sulle possibili cause della crisi.

Note

1) Open Science Collaboration, “Estimating the reproducibility of psychological science”, Science 349:943 (2015)
2) C. G. Bigley, L. M. Ellis, “Raise Standards for Preclinical Cancer Research”, Nature 483:531–533 (2012)
3) Stuart Ritchie, Science Fictions. London: The Bodley Head (2020)
4) J. P. Ioannidis, “Why Most Published Research Findings Are False”, PLoS Medicine 2:e124 (2005)
5) S. N. Goodman, D. Fanelli, J. P. A. Ioannidis, “What does research reproducibility mean?” Science Translational Medicine 8:341ps12 (2016)
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',