Riprendiamo ancora una volta il discorso sulla “crisi della riproducibilità” di cui abbiamo parlato diverse volte: una serie di studi sistematici, nelle discipline biomediche e neuropsicologiche, ha mostrato che non è possibile riprodurre molti dei risultati sperimentali pubblicati, in alcuni casi anche quasi il 20%. È scontato osservare come questo ponga seri dubbi sulla fiducia che possiamo riporre in queste discipline; naturalmente, come abbiamo osservato più volte, la comunità scientifica sta correndo ai ripari in vari modi. Come argomentano Paolo Legrenzi e Carlo Umiltà in un recente saggio dal titolo Il sapere come mestiere (recensito su questo stesso numero di Query a pag. 65), la ripetizione genera fiducia; si potrebbe dunque procedere su due fronti: da un lato naturalmente aumentare la qualità delle ricerche pubblicate, dall’altro replicare sistematicamente tutte le ricerche per controllare di quali risultati fidarsi.
Ma se la riproduzione di un risultato sperimentale è il gold standard nella costruzione della conoscenza scientifica, la replicazione sistematica di tutti i risultati sperimentali può presentare problemi, alcuni ovvi altri meno.
Tanto per cominciare, uno studio sperimentale richiede impegno, tempo e soldi, ma l’attuale sistema molto competitivo degli incentivi accademici non premia certo le replicazioni identiche (né quelle, appena più intriganti, condotte in condizioni leggermente diverse) di risultati già pubblicati, privilegiando i risultati originali. Rimane poi il noto problema del file drawer effect: gli studi con risultati negativi rischiano, per varie ragioni, di rimanere non pubblicati nel cassetto basso della scrivania. Infine, da un altro punto di vista, una replicazione fallita non necessariamente chiude la questione: «I tentativi di replicazione di un particolare risultato non sono essi stessi immuni dai sospetti di bias e difetti nell’esecuzione del protocollo, per cui sostenitori e scettici possono trovarsi in stallo, ciascuno fidandosi maggiormente di uno studio o dell’altro»[1].
Lo abbiamo visto nel numero scorso con la vicenda dell’aneurisma cerebrale e della fase lunare: si fa una terza replicazione (e magari un po’ di metanalisi) che sembra tagliare la testa al toro, poi spunta fuori qualcuno con un quarto risultato che spariglia tutto. Da un lato funziona così, è il bello della scienza, ma dall’altro le risorse sono limitate e si rischiano sprechi e perdite di tempo.
Si può però provare a cercare un indicatore che sia più economico della riproducibilità e che almeno ci suggerisca quanto possiamo fidarci del risultato di uno studio scientifico. Chiamiamolo credibilità: una ricerca è tanto più credibile quanto più i protocolli usati sono rigorosi e trasparenti, la fedeltà dei ricercatori ai protocolli è rigorosa, i dati e i metodi usati sono disponibili per lo scrutinio da parte di chiunque e tutte le precauzioni sono state prese per mettersi al sicuro da frodi e da pratiche scientifiche discutibili quali modificare in corsa un protocollo sperimentale o selezionare arbitrariamente i dati (ne abbiamo parlato diverse volte, per brevità chiamiamole con l’acronimo inglese QRP, Questionable Research Practices).
Naturalmente valutare la credibilità di un risultato non può sostituire la replicazione. Può però permettere di farsi un’idea preliminare e, per esempio, se è valutata insieme all’importanza dei risultati, servire per mettere in ordine di priorità le ricerche da verificare più approfonditamente, in modo da ottimizzare l’uso delle risorse. Inoltre, cercare di aumentare la credibilità di uno studio ne accresce certamente la qualità e riduce il rischio di ottenere risultati non riproducibili, con ovvie conseguenze.
Si pone però immediatamente un problema: per poter asserire la credibilità di un lavoro devono esistere strumenti e standard per valutarla. Per esempio, se vogliamo mettere i dati a disposizione di tutti perché possano controllarli, dobbiamo anche garantire che siano accessibili facilmente e non possano essere manipolati in alcun momento dai ricercatori o da chiunque altro. Esistono standard e strumenti per garantire il modo in cui uno studio è pianificato e poi descritto negli articoli scientifici che riportano i risultati: un esempio sono la pre-registrazione di uno studio (spesso un trial clinico) e i Registered Report.
La pre-registrazione (o più propriamente in italiano “registrazione prospettica”) di uno studio consiste nella deposizione in un registro dei dati principali dello studio prima che il lavoro di ricerca abbia inizio. Per esempio, nel caso dei trial clinici si indica qual è il farmaco oggetto di studio, il numero di soggetti coinvolti, qualche dettaglio del protocollo, e in particolare quali criteri saranno usati per decidere o meno il successo del trial. Come possiamo immaginare, questo serve sia a evitare la distorsione dovuta alla mancata pubblicazione di risultati negativi (almeno così sapremo che quel tale test poi non è stato pubblicato), sia a prevenire molte QRP, come l’eliminazione più o meno arbitraria di soggetti nel corso dello studio.
Nei trial clinici dei farmaci la registrazione prospettica è considerata un imperativo etico ormai da parecchi anni, e in diversi casi è anche un obbligo legale, benché varie indagini abbiano rivelato che in realtà è un obbligo poco rispettato (magari ne riparleremo); nelle discipline psicologiche, tuttavia, è molto meno comune.
Il Registered Report è un passo ulteriore: invece di sottoporre a peer review l’articolo finale, la revisione avviene in due passi. Nel primo, i referee valutano la descrizione preliminare dello studio (ovviamente con molto più dettaglio della semplice registrazione descritta sopra), di nuovo prima che i dati vengano raccolti e studiati. Nella seconda fase, in cui all’articolo vengono aggiunti solo i risultati e la discussione finale, valutano (oltre agli aspetti formali dell’articolo) principalmente l’aderenza ai protocolli descritti in anticipo. Come scrive la Royal Society sulle sue pagine web che descrivono i Registered Report, se questi criteri sono rispettati la pubblicazione a questo punto è virtualmente certa.
C’è però ancora un problema, noto agli esperti come transparency gap. Questi standard non possono garantire che il protocollo sia stato effettivamente rispettato; bisogna fidarsi di quello che gli autori scrivono nel rapporto preliminare e in quello finale. Anche trascurando la possibilità di frode deliberata, nel corso della ricerca può succedere di tutto e qualche deviazione imprevista dal protocollo, magari considerata marginale, può introdurre dei bias, magari senza che i ricercatori se ne rendano conto.
Per mostrare come è possibile chiudere il transparency gap, un folto gruppo di ricercatori di tutto il mondo guidati da Zoltan Kekecs, giovane psicologo della Eötvös Loránd University di Budapest, ha provato l’esercizio di replicare uno studio controverso usando tutti gli strumenti a disposizione per garantire il massimo della trasparenza e verificabilità di tutti i passi della ricerca: per esempio, i dati e i registri del laboratorio erano direttamente caricati su un database gestito da terzi e pubblicamente accessibile anche nel corso dello studio, insieme a molto altro.
Il risultato è stato pubblicato recentemente su Royal Society Open Science, e ha un interesse particolare per i lettori di Query: il titolo è “Raising the value of research studies in psychological science by increasing the credibility of research reports: the transparent Psi project”.
Sì, “Psi” come in “parapsicologia”: ne parleremo nel prossimo numero.
Ma se la riproduzione di un risultato sperimentale è il gold standard nella costruzione della conoscenza scientifica, la replicazione sistematica di tutti i risultati sperimentali può presentare problemi, alcuni ovvi altri meno.
Tanto per cominciare, uno studio sperimentale richiede impegno, tempo e soldi, ma l’attuale sistema molto competitivo degli incentivi accademici non premia certo le replicazioni identiche (né quelle, appena più intriganti, condotte in condizioni leggermente diverse) di risultati già pubblicati, privilegiando i risultati originali. Rimane poi il noto problema del file drawer effect: gli studi con risultati negativi rischiano, per varie ragioni, di rimanere non pubblicati nel cassetto basso della scrivania. Infine, da un altro punto di vista, una replicazione fallita non necessariamente chiude la questione: «I tentativi di replicazione di un particolare risultato non sono essi stessi immuni dai sospetti di bias e difetti nell’esecuzione del protocollo, per cui sostenitori e scettici possono trovarsi in stallo, ciascuno fidandosi maggiormente di uno studio o dell’altro»[1].
Lo abbiamo visto nel numero scorso con la vicenda dell’aneurisma cerebrale e della fase lunare: si fa una terza replicazione (e magari un po’ di metanalisi) che sembra tagliare la testa al toro, poi spunta fuori qualcuno con un quarto risultato che spariglia tutto. Da un lato funziona così, è il bello della scienza, ma dall’altro le risorse sono limitate e si rischiano sprechi e perdite di tempo.
Si può però provare a cercare un indicatore che sia più economico della riproducibilità e che almeno ci suggerisca quanto possiamo fidarci del risultato di uno studio scientifico. Chiamiamolo credibilità: una ricerca è tanto più credibile quanto più i protocolli usati sono rigorosi e trasparenti, la fedeltà dei ricercatori ai protocolli è rigorosa, i dati e i metodi usati sono disponibili per lo scrutinio da parte di chiunque e tutte le precauzioni sono state prese per mettersi al sicuro da frodi e da pratiche scientifiche discutibili quali modificare in corsa un protocollo sperimentale o selezionare arbitrariamente i dati (ne abbiamo parlato diverse volte, per brevità chiamiamole con l’acronimo inglese QRP, Questionable Research Practices).
Naturalmente valutare la credibilità di un risultato non può sostituire la replicazione. Può però permettere di farsi un’idea preliminare e, per esempio, se è valutata insieme all’importanza dei risultati, servire per mettere in ordine di priorità le ricerche da verificare più approfonditamente, in modo da ottimizzare l’uso delle risorse. Inoltre, cercare di aumentare la credibilità di uno studio ne accresce certamente la qualità e riduce il rischio di ottenere risultati non riproducibili, con ovvie conseguenze.
Si pone però immediatamente un problema: per poter asserire la credibilità di un lavoro devono esistere strumenti e standard per valutarla. Per esempio, se vogliamo mettere i dati a disposizione di tutti perché possano controllarli, dobbiamo anche garantire che siano accessibili facilmente e non possano essere manipolati in alcun momento dai ricercatori o da chiunque altro. Esistono standard e strumenti per garantire il modo in cui uno studio è pianificato e poi descritto negli articoli scientifici che riportano i risultati: un esempio sono la pre-registrazione di uno studio (spesso un trial clinico) e i Registered Report.
La pre-registrazione (o più propriamente in italiano “registrazione prospettica”) di uno studio consiste nella deposizione in un registro dei dati principali dello studio prima che il lavoro di ricerca abbia inizio. Per esempio, nel caso dei trial clinici si indica qual è il farmaco oggetto di studio, il numero di soggetti coinvolti, qualche dettaglio del protocollo, e in particolare quali criteri saranno usati per decidere o meno il successo del trial. Come possiamo immaginare, questo serve sia a evitare la distorsione dovuta alla mancata pubblicazione di risultati negativi (almeno così sapremo che quel tale test poi non è stato pubblicato), sia a prevenire molte QRP, come l’eliminazione più o meno arbitraria di soggetti nel corso dello studio.
Nei trial clinici dei farmaci la registrazione prospettica è considerata un imperativo etico ormai da parecchi anni, e in diversi casi è anche un obbligo legale, benché varie indagini abbiano rivelato che in realtà è un obbligo poco rispettato (magari ne riparleremo); nelle discipline psicologiche, tuttavia, è molto meno comune.
Il Registered Report è un passo ulteriore: invece di sottoporre a peer review l’articolo finale, la revisione avviene in due passi. Nel primo, i referee valutano la descrizione preliminare dello studio (ovviamente con molto più dettaglio della semplice registrazione descritta sopra), di nuovo prima che i dati vengano raccolti e studiati. Nella seconda fase, in cui all’articolo vengono aggiunti solo i risultati e la discussione finale, valutano (oltre agli aspetti formali dell’articolo) principalmente l’aderenza ai protocolli descritti in anticipo. Come scrive la Royal Society sulle sue pagine web che descrivono i Registered Report, se questi criteri sono rispettati la pubblicazione a questo punto è virtualmente certa.
C’è però ancora un problema, noto agli esperti come transparency gap. Questi standard non possono garantire che il protocollo sia stato effettivamente rispettato; bisogna fidarsi di quello che gli autori scrivono nel rapporto preliminare e in quello finale. Anche trascurando la possibilità di frode deliberata, nel corso della ricerca può succedere di tutto e qualche deviazione imprevista dal protocollo, magari considerata marginale, può introdurre dei bias, magari senza che i ricercatori se ne rendano conto.
Per mostrare come è possibile chiudere il transparency gap, un folto gruppo di ricercatori di tutto il mondo guidati da Zoltan Kekecs, giovane psicologo della Eötvös Loránd University di Budapest, ha provato l’esercizio di replicare uno studio controverso usando tutti gli strumenti a disposizione per garantire il massimo della trasparenza e verificabilità di tutti i passi della ricerca: per esempio, i dati e i registri del laboratorio erano direttamente caricati su un database gestito da terzi e pubblicamente accessibile anche nel corso dello studio, insieme a molto altro.
Il risultato è stato pubblicato recentemente su Royal Society Open Science, e ha un interesse particolare per i lettori di Query: il titolo è “Raising the value of research studies in psychological science by increasing the credibility of research reports: the transparent Psi project”.
Sì, “Psi” come in “parapsicologia”: ne parleremo nel prossimo numero.
Note
1) Z. Kekecs et al., 2023. “Raising the value of research studies in psychological science by increasing the credibility of research reports: the transparent Psi project”, in Royal Society Open Science, n.10
STEFANO BAGNASCO è fisico e lavora presso l’Istituto Nazionale di Fisica Nucleare, dove si occupa anche di divulgazione scientifica