Proseguendo dallo spunto fornito da un polemico servizio dell’Economist sulla “crisi della scienza”, continuiamo a esaminare i problemi e i limiti, reali o presunti, del sistema della letteratura scientifica. Nello scorso numero abbiamo visto come alcune riviste pirata, in un meccanismo involontariamente provocato dal paradigma dell’Open Access, pubblichino lavori che non hanno davvero subito la necessaria revisione, inquinando la letteratura scientifica con lavori di bassa qualità. In questo numero proveremo invece a occuparci dei limiti che ha il meccanismo della peer review anche quando è applicato nel miglior modo possibile: molti di questi problemi, vedremo, non sono davvero una novità, e sono state proposte soluzioni se non per eliminarli quantomeno per mitigarli.
Tuttavia, come sempre, l'importante è essere consapevoli dei limiti di un sistema che, per quanto perfettibile, non ha ancora trovato un vero sostituto: per evitare di “santificare” un risultato scientifico alla sua prima apparizione su una rivista autorevole o, viceversa, di trattare automaticamente come pseudoscienza qualunque cosa non sia apparsa su Nature o Science.
Partiamo da un’osservazione non completamente corretta che viene proprio dall’Economist (il testo è quello della traduzione italiana comparsa su Internazionale). Partendo da uno dei numerosi esperimenti che evidenziano come non sempre i referee riescono a trovare errori anche evidenti negli articoli loro sottoposti (simile a quello di Bohannon descritto nel numero scorso), l’autore osserva:
Questo non è in realtà un problema, ma un limite ovvio: il compito del referee non può essere quello di rifare da capo il lavoro. In alcuni casi questo è particolarmente evidente. Un articolo sperimentale di fisica, per esempio, può essere il risultato del lavoro di centinaia di ricercatori, che hanno analizzato gigantesche quantità di dati prodotti nell’arco di anni da apparati progettati e fatti funzionare da altre centinaia di scienziati. L’idea che cinque revisori anonimi, lavorando separatamente, possano riesaminare anche solo una frazione significativa dei dati è ridicola. Naturalmente ci sono casi meno estremi, ma in generale, come abbiamo già avuto modo di osservare, il ruolo dei revisori non è quello di capire se il risultato di un lavoro è giusto o sbagliato. Da un lato devono scartare i lavori che contengono errori evidenti (una conclusione che non discende logicamente dai risultati descritti, per esempio, o un errore marchiano nell’impostazione di un esperimento); oppure, se le conclusioni degli autori appaiono traballanti, suggerire miglioramenti o ulteriori verifiche che le rendano più solide. Dall’altro lato devono verificare che il lavoro compiuto sia descritto in modo corretto e sufficientemente dettagliato così che altri gruppi di ricerca possano cercare di riprodurre i risultati per potere, questa volta sì, verificare se essi sono giusti o sbaglati.
Questo implica, tra l’altro, che i referee sono sostanzialmente disarmati di fronte alle frodi vere e proprie, salvo forse quelle più maldestre. Se i dati sono bene inventati, e un ricercatore sa perfettamente che aspetto hanno i dati realistici, non c'è alcun modo di distinguerli da quelli reali se non rifacendo gli esperimenti che li hanno generati: e questo, come abbiamo visto, non è compito dei revisori.
Una terza valutazione chiesta ai referee è sull’importanza del lavoro presentato nel contesto della disciplina, dato che (come abbiamo visto nel n. 10) le riviste più prestigiose preferiscono pubblicare risultati di grande impatto. È qui, nella valutazione del significato scientifico delle scoperte, che secondo il fisico americano John Ziman pesa di più l’opinione personale[1], e si manifesta maggiormente il serio problema della possibile mancanza di imparzialità dei referee. Questi possono essere più o meno severi nella valutazione dell'importanza (e magari anche della correttezza formale) di un articolo in base alle loro particolari convinzioni.
Esistono diversi studi che affrontano il problema; in uno dei più recenti e approfonditi, promosso in Inghilterra da Sense About Science insieme alla casa editrice Elsevier, gli autori hanno intervistato più di 4000 ricercatori di diverse discipline per capire cosa ne pensassero di un aspetto così importante del loro lavoro[2].
Il pregiudizio nella valutazione può essere per esempio ad hominem, basato sull’identità degli autori del lavoro in esame (per esempio il bias di genere: in un ambiente a prevalenza maschile gli autori donna hanno più difficoltà a pubblicare); in base all'affiliazione (un reviewer può valutare più severamente un lavoro proposto da un collega di un’università concorrente, oppure da un’istituzione poco prestigiosa); oppure infine ideologico, cioè basato sull’opinione che il reviewer ha della materia in esame e del suo conformismo alle idee più diffuse: un revisore può considerare poco interessante o sbagliato uno studio che mette in dubbio le sue convinzioni scientifiche. Quest’ultimo tipo di bias è plausibilmente il più insidioso e difficile da misurare, e quello che ha più impatto sul progresso scientifico. Una panoramica sugli studi esistenti non mostra unanimità: i risultati variano da «il bias può essere abbastanza facilmente tenuto sotto controllo» a «non esistono prove che la peer review sia un meccanismo davvero utile a garantire la qualità delle pubblicazioni», con i maggiori dubbi espressi dalla comunità delle scienze biomediche. Il problema non è forse grave come potrebbe sembrare, però, per lo meno nella percezione dei ricercatori stessi: il 69% si dichiara soddisfatto del sistema, anche se solo il 32% pensa che non siano necessarie migliorie e che il sistema in uso sia il migliore possibile. Quali possono essere queste migliorie?
Nella grande maggioranza dei casi, l’identità dei reviewer è tenuta nascosta (“single-blind”: il revisore conosce gli autori ma non viceversa). Due ulteriori possibilità potrebbero ridurre l'impatto del bias: nascondere ai revisori l'identità degli autori (“double-blind”, spesso difficile o impossibile da utilizzare, per esempio in discipline così specialistiche che tutti gli esperti si conoscono tra di loro ed è difficile già mantenere anonimi i referee), oppure rendere pubblico tutto il processo, pubblicando i commenti firmati dei revisori insieme all’articolo (“open review”); esistono riviste che stanno sperimentando questi sistemi.
Ancora più radicalmente, si può evitare del tutto di chiedere ai referee di valutare l'importanza di un articolo. La prima rivista a farlo è stata PLoS ONE (una delle più autorevoli tra le riviste open-access generaliste) nel 2010, seguita poi da altre: i referee valutano la solidità tecnica di un lavoro, mentre la sua importanza sarà valutata a posteriori dai lettori, che possono postare commenti e hanno a disposizione statistiche e dati di accesso dei singoli articoli. Oppure ancora, si può spostare il processo di revisione a dopo la pubblicazione (“post-publication peer review”), demandando alla redazione della rivista solo una scrematura preliminare molto poco selettiva, per evitare di pubblicare evidente spazzatura.
In conseguenza di questi problemi, e in particolare del rischio di bias ideologico, è diffuso comunque il sospetto che il meccanismo della peer review così com’è di solito impostato sia troppo conservatore nei confronti di idee nuove e potenzialmente rivoluzionarie, che fanno fatica a emergere. La peer review e la replicazione degli esperimenti sono la concretizzazione pratica dello “scetticismo organizzato” che secondo Robert K. Merton, uno dei pionieri dell'applicazione alla scienza dei metodi dell'indagine sociologica, è uno dei fondamenti del lavoro scientifico. Come osserva sempre Ziman, lo scetticismo e la ricerca dell'originalità (un altro degli “imperativi istituzionali” della scienza descritti da Merton) creano un equilibrio tra conservazione e innovazione: «Se l’originalità è il motore del progresso scientifico, lo scetticismo è il suo freno». Si capisce facilmente come sia facile rompere un equilibrio così delicato, per esempio rifiutando di pubblicare lavori ritenuti troppo azzardati. È difficile capire quanto questo davvero incida sulla costruzione della conoscenza scientifica. Studi come quelli descritti sopra si concentrano sull’efficacia della peer review nel trovare errori piuttosto che sulla sua eccessiva prudenza, e gli studi di carattere storico che sarebbero i più adatti per affrontare questo tipo di problema ci possono dire relativamente poco sul presente. È però un problema sentito: più di dieci anni fa un editoriale su Nature[3] faceva il conto degli articoli rivoluzionari rifiutati da riviste blasonate come la stessa Nature e andati a finire su pubblicazioni meno prestigiose. La conclusione un po’ farisaica era che gli autori convinti del valore rivoluzionario del loro lavoro devono ritentare e non desistere, e che il sistema nel suo complesso funziona. Quest’ultima conclusione è forse ottimista, ma se le iniziative descritte sopra si riveleranno utili per difendersi dal bias, aiuteranno plausibilmente anche a mitigare questo rischio.
L’eventuale eccessivo conservatorismo della peer review può avere conseguenze ancora più gravi quando usato per valutare non la pubblicazione di un risultato scientifico ma per decidere se finanziare o meno un progetto di ricerca, come è pratica quasi universale per esempio per l’assegnazione dei fondi dell'Unione Europea. In questo caso è chiaramente più semplice decidere di finanziare un progetto poco ambizioso che ha una buona probabilità di riuscita piuttosto che uno studio potenzialmente rivoluzionario ma ad alto rischio di fallimento. Più di recente, il timore che questa eccessiva prudenza stia effettivamente rallentando il progresso scientifico ha spinto una trentina di scienziati eminenti, tra cui tre premi Nobel, a pubblicare una lettera aperta sul Guardian[4] in cui si lanciava l'appello «We need more scientific mavericks», «Servono più dissidenti scientifici: dobbiamo reimparare a sostenerli», perché il futuro è a volte imprevedibile.
Tuttavia, come sempre, l'importante è essere consapevoli dei limiti di un sistema che, per quanto perfettibile, non ha ancora trovato un vero sostituto: per evitare di “santificare” un risultato scientifico alla sua prima apparizione su una rivista autorevole o, viceversa, di trattare automaticamente come pseudoscienza qualunque cosa non sia apparsa su Nature o Science.
Partiamo da un’osservazione non completamente corretta che viene proprio dall’Economist (il testo è quello della traduzione italiana comparsa su Internazionale). Partendo da uno dei numerosi esperimenti che evidenziano come non sempre i referee riescono a trovare errori anche evidenti negli articoli loro sottoposti (simile a quello di Bohannon descritto nel numero scorso), l’autore osserva:
Non solo non vedono quello che dovrebbero, ma i revisori non cercano neanche di controllare alcune cose. Di solito non riesaminano tutti i dati, ma si accontentano di vedere se l’analisi dell’autore è impostata correttamente.
Questo non è in realtà un problema, ma un limite ovvio: il compito del referee non può essere quello di rifare da capo il lavoro. In alcuni casi questo è particolarmente evidente. Un articolo sperimentale di fisica, per esempio, può essere il risultato del lavoro di centinaia di ricercatori, che hanno analizzato gigantesche quantità di dati prodotti nell’arco di anni da apparati progettati e fatti funzionare da altre centinaia di scienziati. L’idea che cinque revisori anonimi, lavorando separatamente, possano riesaminare anche solo una frazione significativa dei dati è ridicola. Naturalmente ci sono casi meno estremi, ma in generale, come abbiamo già avuto modo di osservare, il ruolo dei revisori non è quello di capire se il risultato di un lavoro è giusto o sbagliato. Da un lato devono scartare i lavori che contengono errori evidenti (una conclusione che non discende logicamente dai risultati descritti, per esempio, o un errore marchiano nell’impostazione di un esperimento); oppure, se le conclusioni degli autori appaiono traballanti, suggerire miglioramenti o ulteriori verifiche che le rendano più solide. Dall’altro lato devono verificare che il lavoro compiuto sia descritto in modo corretto e sufficientemente dettagliato così che altri gruppi di ricerca possano cercare di riprodurre i risultati per potere, questa volta sì, verificare se essi sono giusti o sbaglati.
Questo implica, tra l’altro, che i referee sono sostanzialmente disarmati di fronte alle frodi vere e proprie, salvo forse quelle più maldestre. Se i dati sono bene inventati, e un ricercatore sa perfettamente che aspetto hanno i dati realistici, non c'è alcun modo di distinguerli da quelli reali se non rifacendo gli esperimenti che li hanno generati: e questo, come abbiamo visto, non è compito dei revisori.
Una terza valutazione chiesta ai referee è sull’importanza del lavoro presentato nel contesto della disciplina, dato che (come abbiamo visto nel n. 10) le riviste più prestigiose preferiscono pubblicare risultati di grande impatto. È qui, nella valutazione del significato scientifico delle scoperte, che secondo il fisico americano John Ziman pesa di più l’opinione personale[1], e si manifesta maggiormente il serio problema della possibile mancanza di imparzialità dei referee. Questi possono essere più o meno severi nella valutazione dell'importanza (e magari anche della correttezza formale) di un articolo in base alle loro particolari convinzioni.
Esistono diversi studi che affrontano il problema; in uno dei più recenti e approfonditi, promosso in Inghilterra da Sense About Science insieme alla casa editrice Elsevier, gli autori hanno intervistato più di 4000 ricercatori di diverse discipline per capire cosa ne pensassero di un aspetto così importante del loro lavoro[2].
Il pregiudizio nella valutazione può essere per esempio ad hominem, basato sull’identità degli autori del lavoro in esame (per esempio il bias di genere: in un ambiente a prevalenza maschile gli autori donna hanno più difficoltà a pubblicare); in base all'affiliazione (un reviewer può valutare più severamente un lavoro proposto da un collega di un’università concorrente, oppure da un’istituzione poco prestigiosa); oppure infine ideologico, cioè basato sull’opinione che il reviewer ha della materia in esame e del suo conformismo alle idee più diffuse: un revisore può considerare poco interessante o sbagliato uno studio che mette in dubbio le sue convinzioni scientifiche. Quest’ultimo tipo di bias è plausibilmente il più insidioso e difficile da misurare, e quello che ha più impatto sul progresso scientifico. Una panoramica sugli studi esistenti non mostra unanimità: i risultati variano da «il bias può essere abbastanza facilmente tenuto sotto controllo» a «non esistono prove che la peer review sia un meccanismo davvero utile a garantire la qualità delle pubblicazioni», con i maggiori dubbi espressi dalla comunità delle scienze biomediche. Il problema non è forse grave come potrebbe sembrare, però, per lo meno nella percezione dei ricercatori stessi: il 69% si dichiara soddisfatto del sistema, anche se solo il 32% pensa che non siano necessarie migliorie e che il sistema in uso sia il migliore possibile. Quali possono essere queste migliorie?
Nella grande maggioranza dei casi, l’identità dei reviewer è tenuta nascosta (“single-blind”: il revisore conosce gli autori ma non viceversa). Due ulteriori possibilità potrebbero ridurre l'impatto del bias: nascondere ai revisori l'identità degli autori (“double-blind”, spesso difficile o impossibile da utilizzare, per esempio in discipline così specialistiche che tutti gli esperti si conoscono tra di loro ed è difficile già mantenere anonimi i referee), oppure rendere pubblico tutto il processo, pubblicando i commenti firmati dei revisori insieme all’articolo (“open review”); esistono riviste che stanno sperimentando questi sistemi.
Ancora più radicalmente, si può evitare del tutto di chiedere ai referee di valutare l'importanza di un articolo. La prima rivista a farlo è stata PLoS ONE (una delle più autorevoli tra le riviste open-access generaliste) nel 2010, seguita poi da altre: i referee valutano la solidità tecnica di un lavoro, mentre la sua importanza sarà valutata a posteriori dai lettori, che possono postare commenti e hanno a disposizione statistiche e dati di accesso dei singoli articoli. Oppure ancora, si può spostare il processo di revisione a dopo la pubblicazione (“post-publication peer review”), demandando alla redazione della rivista solo una scrematura preliminare molto poco selettiva, per evitare di pubblicare evidente spazzatura.
In conseguenza di questi problemi, e in particolare del rischio di bias ideologico, è diffuso comunque il sospetto che il meccanismo della peer review così com’è di solito impostato sia troppo conservatore nei confronti di idee nuove e potenzialmente rivoluzionarie, che fanno fatica a emergere. La peer review e la replicazione degli esperimenti sono la concretizzazione pratica dello “scetticismo organizzato” che secondo Robert K. Merton, uno dei pionieri dell'applicazione alla scienza dei metodi dell'indagine sociologica, è uno dei fondamenti del lavoro scientifico. Come osserva sempre Ziman, lo scetticismo e la ricerca dell'originalità (un altro degli “imperativi istituzionali” della scienza descritti da Merton) creano un equilibrio tra conservazione e innovazione: «Se l’originalità è il motore del progresso scientifico, lo scetticismo è il suo freno». Si capisce facilmente come sia facile rompere un equilibrio così delicato, per esempio rifiutando di pubblicare lavori ritenuti troppo azzardati. È difficile capire quanto questo davvero incida sulla costruzione della conoscenza scientifica. Studi come quelli descritti sopra si concentrano sull’efficacia della peer review nel trovare errori piuttosto che sulla sua eccessiva prudenza, e gli studi di carattere storico che sarebbero i più adatti per affrontare questo tipo di problema ci possono dire relativamente poco sul presente. È però un problema sentito: più di dieci anni fa un editoriale su Nature[3] faceva il conto degli articoli rivoluzionari rifiutati da riviste blasonate come la stessa Nature e andati a finire su pubblicazioni meno prestigiose. La conclusione un po’ farisaica era che gli autori convinti del valore rivoluzionario del loro lavoro devono ritentare e non desistere, e che il sistema nel suo complesso funziona. Quest’ultima conclusione è forse ottimista, ma se le iniziative descritte sopra si riveleranno utili per difendersi dal bias, aiuteranno plausibilmente anche a mitigare questo rischio.
L’eventuale eccessivo conservatorismo della peer review può avere conseguenze ancora più gravi quando usato per valutare non la pubblicazione di un risultato scientifico ma per decidere se finanziare o meno un progetto di ricerca, come è pratica quasi universale per esempio per l’assegnazione dei fondi dell'Unione Europea. In questo caso è chiaramente più semplice decidere di finanziare un progetto poco ambizioso che ha una buona probabilità di riuscita piuttosto che uno studio potenzialmente rivoluzionario ma ad alto rischio di fallimento. Più di recente, il timore che questa eccessiva prudenza stia effettivamente rallentando il progresso scientifico ha spinto una trentina di scienziati eminenti, tra cui tre premi Nobel, a pubblicare una lettera aperta sul Guardian[4] in cui si lanciava l'appello «We need more scientific mavericks», «Servono più dissidenti scientifici: dobbiamo reimparare a sostenerli», perché il futuro è a volte imprevedibile.
Note
1) J. Ziman, Real science: what it is and what it means, Cambridge: Cambridge University Press (2000). Tr. it. La vera scienza. Natura e modelli operativi nella prassi scientifica, Bari: Dedalo (2002)
2) A. Mulligan, L. Hall, E. Raphael, “Peer Review in a Changing World: An International Study Measuring the Attitudes of Researchers”, Journal of the Am. Soc. for Information Science and Technology 64(1):132-162 (2013)
3) “Coping with peer rejection”, Nature 425:645 (2003)
4) “We need more scientific Mavericks”, The Guardian, 18 marzo 2014