Di cosa parliamo quando parliamo... di riproducibilità

Quando il 23 marzo del 1989 i chimici Martin Fleischmann e Stanley Pons annunciarono, in una affollata conferenza stampa a Salt Lake City, di aver ottenuto energia per fusione nucleare a temperatura ambiente, i laboratori di tutto il mondo si misero immediatamente al lavoro: forse era stata trovata la soluzione ai problemi energetici planetari, energia a basso costo senza pericoli, inquinamento o scorie radioattive da smaltire.

image
Nella figura accanto è rappresentato il numero di articoli scientifici pubblicati ogni anno sull’argomento (anche se non tutti su riviste sottoposte a peer review, ne abbiamo parlato sul n. 1 di Query). Si vede immediatamente come tra il 1989 e il 1991 siano stati pubblicati più di 750 lavori, ma subito dopo il numero pubblicazioni sia sceso piuttosto rapidamente fino a ridursi a quasi zero col nuovo millennio. Cosa stava succedendo? I fisici (e i chimici) di tutto il mondo, dai dottorandi della University of Washington ai team interdisciplinari del MIT e del centro di ricerche nucleari di Harwell in Inghilterra, all’ENEA in Italia, cercavano di riprodurre il risultato di Fleischmann e Pons. Qualcuno sembrava riuscirci e annunciava subito il risultato sull’onda dell’entusiasmo, molti non ci riuscivano e magari prudentemente aspettavano a pubblicare. Poi, un po’ alla volta, i risultati negativi cominciarono a superare quelli positivi, i laboratori meglio attrezzati e organizzati non riuscirono a riprodurre il fenomeno e l’interesse per la fusione fredda scemò: la fusione fredda non era un fenomeno riproducibile.

Quando viene annunciata una scoperta che contraddice le conoscenze accettate in un ambito della scienza, gli specialisti iniziano a lavorare sull’argomento tentando per prima cosa di replicare i risultati ottenuti dagli scopritori prima ancora di cercare di ottenerne di nuovi. È una manifestazione dello scetticismo organizzato che il sociologo Thomas K. Merton individuava come uno degli “imperativi istituzionali” che guidano, o dovrebbero guidare, il comportamento della comunità scientifica. La replicazione dei risultati è molto importante, oltre che per familiarizzarsi con l’argomento, per verificare che il risultato degli scopritori sia riproducibile, un concetto fondamentale per la definizione di cosa è scienza e cosa non può esserlo. Se altri ricercatori non riescono a riprodurre un risultato, è plausibile che si sia trattato di una coincidenza, di una fluttuazione statistica o anche di un errore piuttosto che di una nuova scoperta: la natura è complessa e la storia della scienza è costellata di scoperte poi rivelatesi vicoli ciechi.

L’importanza della riproducibilità ha le sue radici profonde nel principio di induzione. Se osserviamo che il sole sorge tutte le mattine, ci aspettiamo che anche domani faccia lo stesso: questo tipo di ragionamento si chiama induzione. Il ragionamento per induzione individua regolarità nel comportamento della natura, che permettono di formulare leggi generali a partire da un numero limitato di osservazioni: un modo di ragionare fondamentale nel funzionamento della scienza, anche se non è l’unico componente del metodo scientifico. È proprio la “riproducibilità” di eventi come il sorgere del sole che permette di formulare leggi generali come “tutti i giorni il sole sorge”. Se osservassimo che l’emissione di radon (un gas radioattivo presente nel sottosuolo) precede sistematicamente i terremoti, potremmo concludere che a una forte emissione di radon seguirà un grosso terremoto. Ma l’osservazione di radon in coincidenza con i grandi terremoti non è ben riproducibile. A volte si hanno emissioni di radon senza nessun terremoto, mentre altre volte non ce ne sono in corrispondenza di terremoti anche importanti; non è quindi possibile prevedere i terremoti tenendo sotto controllo il radon.

Quando uno scienziato dice che un fenomeno è riproducibile, però, non ha di solito in mente un’argomentazione così radicale, ma una sua conseguenza più pratica. Se la conoscenza scientifica deve essere “intersoggettiva” (ossia le sue conclusioni devono essere indipendenti da chi le trae), un esperimento deve dare lo stesso risultato anche se condotto da persone diverse in luoghi differenti.

Come scrive per esempio Karl Popper in La logica della scoperta scientifica:

Soltanto quando certi eventi ricorrono in accordo con regole, o regolarità, come nel caso degli esperimenti ripetibili, le nostre osservazioni possono esser controllate – in linea di principio – da chiunque. Non prendiamo neppure sul serio le nostre proprie osservazioni, né le accettiamo come osservazioni scientifiche, finché non le abbiamo ripetute e controllate. Soltanto in seguito a tali ripetizioni possiamo convincerci che non stiamo trattando con una semplice “coincidenza” isolata, ma con eventi che, grazie alla loro regolarità e riproducibilità, possono, in linea di principio, essere sottoposti a controlli intersoggettivi. [...] In realtà l’effetto fisico scientificamente significante può essere definito come quell’effetto che può essere riprodotto regolarmente da chiunque conduca a termine nel modo descritto l’esperimento appropriato.

Un fenomeno che non può, almeno in linea di principio, essere riprodotto o osservato a piacimento non può essere materia di indagine scientifica. E non solo: l’idea che il proprio risultato debba poter essere riprodotto da altri può servire da deterrente contro frodi e imbrogli che, per quanto relativamente rari, non sono sconosciuti neanche tra gli scienziati.

Esistono diversi gradi di riproducibilità. Si può per esempio distinguere tra la ripetibilità di un esperimento e la riproducibilità di un risultato, mutuando il termine dalla metrologia. Il primo dei due concetti si riferisce alla ripetizione di un esperimento nelle identiche condizioni dell’originale, mentre nel secondo caso si riproduce il risultato con un esperimento simile ma non identico, variando alcune delle condizioni. Si vede subito che i due concetti sfumano uno nell’altro. Quanto devono essere simili le condizioni sperimentali per poter dire che sono le stesse? Un reagente lasciato qualche ora in più in un barattolo aperto, piccole differenze nell’umidità atmosferica, minimi scostamenti dalla procedura seguita la prima volta possono in alcuni casi essere sufficienti per cambiare il risultato di un esperimento. Vi è una gerarchia tra questi due concetti: una misura poco ripetibile è plausibilmente sbagliata per ragioni banali, come essere incappati in una fluttuazione statistica particolarmente maligna. Un esperimento poco riproducibile (ossia che fallisce variando anche di poco le condizioni) può anche indicare un fenomeno non ben capito, in cui magari sfugge l’importanza di un parametro fondamentale.

In altri casi, a causa per esempio della complessità del fenomeno, la riproducibilità non è in senso stretto l’affermazione che «nelle condizioni A avviene sempre B», ma «nelle condizioni A avviene B con probabilità p». In questo caso la riproducibilità del risultato consiste nell’ottenere lo stesso valore di p in esperimenti o misure diversi. È il caso, per esempio, delle sperimentazioni cliniche: in questi casi può essere considerato riproducibile ottenere, in diversi test di uno stesso farmaco, più o meno lo stesso tasso di guarigione.

Nell’ambito delle scienze naturali, abbiamo finora implicitamente ristretto il nostro discorso alle scienze sperimentali, come la fisica o la chimica. Che succede per le scienze a carattere storico, come la geologia o l’astronomia, in cui invece che sull’esperimento controllato bisogna basarsi sull’osservazione di eventi fuori dal nostro controllo diretto, o magari già accaduti? In questi casi ci si aspetta naturalmente che una misura sia ripetibile (due astronomi che misurano la luminosità della stessa stella con strumenti simili devono ottenere lo stesso risultato), ma in molti casi la riproducibilità in senso stretto è impossibile: una supernova che esplode in una galassia vicina può essere osservata con la massima cura ma non riesploderà più. In questo caso il concetto di riproducibilità implica che osservatori diversi, con strumenti diversi, osserveranno altre supernove simili ma mai identiche a quella originale, ottenendo risultati simili. Queste osservazioni sono “esperimenti naturali” che permettono comunque di formulare leggi generali e di verificarne le ipotesi.

Ma cosa si può dire degli eventi strani osservati una volta sola, delle anomalie mai confermate, delle quasi scoperte che nessuno è riuscito a replicare? Ogni scienziato esperto ne ha qualcuna nel cassetto. Ridiamo la parola a Popper:

Naturalmente nessun fisico direbbe, in questo caso, di aver fatto una scoperta scientifica (anche se potrebbe tentare di ricostruire i suoi esperimenti in modo da far sì che l’effetto sia riproducibile).

Popper parla di fisica ma lo stesso vale, fatte le debite modifiche, per tutte le discipline. Anche se forse è stato un po’ ottimista con quel “naturalmente”...
accessToken: '2206040148.1677ed0.0fda6df7e8ad4d22abe321c59edeb25f',