Crisi della riproducibilità: quanto è grave il problema?

img
«Bene. Andiamo. Penso che troverai il mio lavoro piuttosto interessante: sto cercando di replicare il segnale di materia oscura trovato nei cristalli di ioduro di sodio dagli italiani».
«Quindi, non un lavoro originale?» «No» «Allora che senso ha che io lo veda? Mi basta leggere il paper degli italiani».

Nella quindicesima puntata della seconda stagione di The Big Bang Theory, Leonard Hofstadter, uno dei protagonisti, riceve una visita della sua algida e insopportabile madre Beverley, neuroscienziata e psichiatra di successo, che lo mette immediatamente in imbarazzo sminuendo il suo lavoro. Il problema della non riproducibilità dei risultati, di cui stiamo parlando ormai da diversi numeri, è molto più sentito nelle neuroscienze rispetto alla fisica sperimentale, e viene da pensare che la neuroscienziata fosse più fiduciosa nel risultato del lavoro degli italiani di quanto lo sarebbe stata nel lavoro di un collega...

Naturalmente siamo tutti d’accordo che in realtà tentare di riprodurre il risultato di altre ricerche è una parte fondamentale del lavoro scientifico, anche se magari genera meno prestigio accademico di una scoperta originale. Ma torniamo alla crisi della riproducibilità. Scrivevamo nel numero scorso di questa rubrica che non tutti sono d’accordo nel considerare quella della non riproducibilità una vera crisi della scienza.

Tanto per cominciare, lo stato dell’arte della ricerca sulla prevalenza delle Questionable Research Practices (QRP, come abbiamo preso anche qui l’abitudine di chiamare le «pratiche discutibili nella ricerca») sembra indicare che esse in realtà, per quanto presenti, non siano poi così diffuse. È vero, per fare solo un esempio, che il numero di articoli scientifici ritirati è in aumento, ma la grande maggioranza delle rimozioni è dovuta a problemi di plagio di vario tipo e non a falsificazioni o altre manipolazioni dei dati, ed è plausibilmente più un effetto del miglioramento delle politiche delle riviste al riguardo che di un aumento dei lavori problematici.

Rolf Ulrich e Jeff Miller, due neuroscienziati rispettivamente dell’Università di Tubinga e dell’Università di Otago, in Nuova Zelanda, hanno provato a modellizzare l’impatto di alcune tra le più diffuse pratiche di p-hacking, cioè le pratiche che, più o meno inconsapevolmente, possono gonfiare la significatività statistica di uno studio[1]. Per esempio, aggiungere dati un po’ alla volta a uno studio inconcludente fino a che non si raggiunge un risultato significativo, oppure escludere più o meno arbitrariamente qualche dato outlier, cioè che si discosta particolarmente dagli altri, con la scusa di “ripulire” i dati da possibili errori di misura o casi particolari. Con argomenti abbastanza tecnici, mostrano come nella pratica queste operazioni non hanno un grande impatto sulla riproducibilità, e anzi possono davvero migliorare la sensibilità di uno studio (ma solo quando i ricercatori stanno esaminando un effetto vero, altrimenti generano falsi positivi!).

La causa è quindi da cercare altrove: in particolare, nel fatto che in molti campi di ricerca la quantità di effetti veri è bassa, e quindi la probabilità di stare esaminando un effetto che in realtà non c’è è, di converso, più alta.

Questo ci porta a un’altra riflessione. Concentrarsi sulla scarsa replicabilità rischia di far scordare il fatto che gli errori e i risultati non riproducibili sono una componente essenziale del progresso scientifico. Un gruppo di ricercatori dell’Università del Minnesota[2] usa esempi tratti dalla matematica e dall’informatica, discipline in cui il p-hacking non può avere alcun effetto: la dimostrazione del teorema dei quattro colori, lo sviluppo delle analisi di Fourier e l’invenzione delle reti neurali alla base oggi dell’intelligenza artificiale. La mancanza della replicazione di un risultato, in tutti questi casi (e naturalmente in molti altri), ha aperto la strada a nuovi punti di vista e contribuito a nuove scoperte. La loro conclusione è che forse c’è troppa attenzione sulla replicabilità dei singoli risultati rispetto al complesso della costruzione della conoscenza scientifica, che comporta anche «l’integrazione di idee e osservazioni in conflitto tra loro in una teoria coerente». Questo richiede tempi lunghi, talvolta decenni, che possono essere in contrasto con la richiesta di risultati immediati da parte degli enti finanziatori e dell’opinione pubblica. Si tratta, quindi, più di concentrarsi sulla qualità della conoscenza scientifica prodotta, che non può mai essere basata su un singolo studio, e magari spostare l’attenzione dalla riproducibilità dei risultati a quella dei metodi (che può davvero tendere, idealmente, al 100%) o a quella inferenziale (ne abbiamo parlato due numeri fa), che coinvolge direttamente il modo in cui viene raggiunto il consenso scientifico su un determinato argomento.

Daniele Fanelli[3], un esperto di meta-ricerca che abbiamo già incontrato, riassume la sua posizione osservando che gli studi più recenti sulla riproducibilità sono per lo più rassicuranti o inconclusivi, e che in ogni caso la situazione è molto disomogenea tra le varie discipline scientifiche. Inoltre, non sembrano esserci prove che il problema stia davvero peggiorando: per esempio, la pratica chiamata salami slicing (affettare il salame), che consiste nel pubblicare molti articoli con risultati parziali o intermedi per aumentare il numero di pubblicazioni, potrebbe non essere così diffusa, dato che in diverse discipline «i lavori pubblicati tendono a essere più lunghi, complessi e ricchi di dati».

Insomma, quella che nei media è stata descritta come una vera e propria crisi della scienza potrebbe non essere così profonda, anche se naturalmente si può sempre migliorare. La letteratura in “meta-ricerca” sta ampliandosi, e per esempio l’Unione Europea sta distribuendo ai ricercatori che hanno avuto progetti finanziati dal programma Horizon 2020 un questionario proprio sulla riproducibilità delle loro ricerche, nell’ottica di capire in che modo stimolare l’attenzione alla riproducibilità attraverso i suoi bandi competitivi per i finanziamenti.

Staremo a vedere; una scienza in cui tutti i risultati sono riproducibili non è sana, perché vuol dire che i ricercatori non stanno osando abbastanza per progredire, ma i risultati che non possono essere replicati non devono derivare da sciatteria, scarsa qualità o pratiche discutibili. Ci sono molte misure e politiche che possono essere adottate per ridurre questo rischio; ne parleremo nella quarta e ultima puntata, almeno per ora, di questa serie dedicata alla “crisi della riproducibilità” nella scienza.

Nelle sue conclusioni, Fanelli sostiene che rappresentare la scienza come in crisi, oltre a essere probabilmente scorretto, è controproducente, dato che rischia di «indurre cinismo e indifferenza» nelle nuove generazioni di ricercatori e di diffondere nel pubblico un’immagine sbagliata, screditando la conoscenza scientifica e infondendo sfiducia invece di dare un’immagine realistica del difficile cammino del progresso scientifico. Suggerisce che «[...] la scienza contemporanea potrebbe essere meglio descritta come in procinto di affrontare “nuove opportunità e sfide” o anche “una rivoluzione”». Ha certamente ragione, anche se (per tornare alla filmografia nerd da cui siamo partiti) risuona un po’ con la voce del professor Smith di PhD Comics - The Movie: «Nel mondo accademico, non usiamo mai la parola “problemi”. È considerato un segno di debolezza. Chiamale... “sfide”. “Questioni aperte”, se proprio devi, ma mai “problemi”».

Note

1) R. Ulrich, J. Miller, “Questionable research practices may have little effect on replicability” eLife 9:e58237 (2020)
2) A.D. Redish, E. Kummerfeld, R.L. Morris e A.C. Love, “Reproducibility failures are essential to scientific enquiries” PNAS 115(20):5042–5046 (2018)
3) D. Fanelli, “Is science really facing a reproducibility crisis, and do we need it to?” PNAS 115(11):2628–2631 (2018)
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',