Una famosa battuta sul mondo della pubblicità, variamente attribuita a diversi grandi industriali anglosassoni, recita: «La metà dei soldi che investo in pubblicità è sprecata; il problema è che non so quale».
Anche nel mondo della ricerca scientifica ci sono ovviamente modi più o meno efficienti di spendere il denaro del contribuente o degli investitori, finanziando questo o quel progetto o premiando un certo istituto di ricerca invece di un altro. Nella prima metà del XX secolo, con la nascita dei grandi enti pubblici finanziatori della ricerca come la National Science Foundation negli Stati Uniti o il Consiglio Nazionale delle Ricerche in Italia, divenne concreto il duplice problema di amministrare i fondi: da un lato scegliere quali progetti di ricerca finanziare, o quali ricercatori assumere o promuovere, in un ambiente sempre più competitivo, e dall’altro verificare a posteriori l’effettivo buon uso dei fondi erogati.
Una valutazione qualitativa da parte di esperti, una peer review in cui l’oggetto della valutazione non fosse il singolo lavoro scientifico ma qualcosa di più ampio, sarebbe stata plausibilmente la via più naturale, e forse la migliore (ne riparleremo). Ci si scontrava però con due problemi. Da un lato, la crescita letteralmente esponenziale della produzione scientifica rendeva improbo il compito: ciascun reviewer avrebbe dovuto valutare non una singola ricerca, ma l’intera produzione scientifica di un ricercatore o di un istituto. Dall’altro, sarebbe stato desiderabile un approccio più quantitativo e, almeno in teoria, più oggettivo.
Più o meno negli stessi anni stava nascendo la “scientometria” (l’uso del termine si diffuse soprattutto con la creazione nel 1978 della rivista Scientometrics da parte del chimico ungherese Tibor Braun), la disciplina che, nelle parole di uno dei suoi fondatori, lo storico della scienza inglese Derek De Solla Price, doveva «puntare gli strumenti della scienza sulla scienza stessa». La scientometria si distingue da approcci più “umanistici” e qualitativi, come la sociologia o la filosofia della scienza, per l’uso di strumenti quantitativi e di tecniche più vicine a quelle delle scienze fisiche che a quelle delle scienze umane e sociali. (Una digressione: il nome di Derek De Solla Price è probabilmente familiare ai lettori di Query per una ragione completamente diversa. Fu tra i primi, negli anni Cinquanta del Novecento, a studiare sistematicamente il famoso Meccanismo di Antikythera, e grazie all’uso di radiografie probabilmente il primo a capirne la natura, anche se con alcune imprecisioni che solo l’esame con strumenti più moderni permise di correggere.)
Una delle branche principali della scientometria è la “bibliometria”, ossia l’applicazione di tecniche matematiche e statistiche allo studio della diffusione e dell’impatto della letteratura scientifica. Nella sua forma più semplice, la bibliometria si basa sull’idea che il “mattone base” della produzione scientifica sia l’articolo pubblicato su una rivista sottoposta a peer review. D’altronde, la coincidenza del risultato scientifico di una ricerca con l’articolo in cui è pubblicato si riflette nel gergo dei ricercatori, che spesso usano il termine “lavoro” per indicare l’articolo stesso, in frasi come «ho pubblicato un lavoro su Nature»; lo faremo anche qui ogni tanto. La necessità di garantire, almeno in linea di principio, la riproducibilità dei risultati fa sì che gli autori di un articolo scientifico non debbano solo descrivere per filo e per segno tutto quello che hanno fatto, ma anche dichiarare la fonte di ogni informazione usata che non sia stata direttamente ricavata da loro. Di conseguenza, ogni articolo scientifico include una sezione bibliografica (le references) che può essere anche molto lunga; idealmente, seguendo all’indietro la traccia dei riferimenti bibliografici si potrebbe ricostruire tutta la catena di studi, ricerche ed esperimenti che hanno portato, per esempio, a una determinata scoperta.
Nel 1955 il chimico statunitense Eugene Garfield propose sulle pagine di Science la creazione di un indice generale delle citazioni tra articoli scientifici, che permettesse di navigare sia all’indietro che in avanti la rete costituita dalle pubblicazioni scientifiche su un determinato argomento. Pochi anni dopo, la società fondata da Garfield, l’Institute for Scientific Information (ISI), pubblicò per la prima volta il Science Citation Index (SCI): un indice che raccoglie le citazioni tra articoli scientifici. Pur tra molte trasformazioni e ampliamenti (il più importante forse è stato il passaggio dalla carta stampata a un formato digitale nel 1988), lo Science Citation Index esiste ancora: oggi fa parte della piattaforma Web of Science di Clarivate Analytics, anche se è ancora nota tra gli addetti ai lavori come “ISI Web of Science”, ed è uno dei principali database usati per la bibliometria.
Gli indici come SCI, e la bibliometria in generale, non nacquero tanto come strumenti per la valutazione della ricerca, ma per legare tra loro studi in base a somiglianze concettuali e creare una rete di «associazioni di idee» (nelle parole dello stesso Garfield) tra riviste e discipline diverse; tuttavia, l’idea alla base della bibliometria, cioè che analizzando questa rete di citazioni sia possibile ottenere informazioni quantitative sul processo di costruzione della conoscenza scientifica, era troppo ghiotta per non essere tentati di usarla per valutare la ricerca: quali studi sono stati più influenti, quali istituti di ricerca hanno dato il contributo più importante, qual è il ricercatore più brillante e molte altre cose.
Le informazioni che vengono dalla bibliometria possono essere condensate in parametri chiamati “indici bibliometrici”, che dovrebbero descrivere in modo sintetico e quantitativo aspetti diversi della produzione scientifica. Esistono molti indici bibliometrici, ciascuno con proprie caratteristiche e limiti, ma in sostanza tutti si basano sui dati delle citazioni tra articoli scientifici, oggi disponibili su due principali database: il citato SCI e Scopus, gestito dal gigante dell’editoria scientifica Elsevier. Entrambe queste piattaforme curano particolarmente la selezione delle riviste incluse nel database, mentre un terzo database, Google Scholar (che da qualche anno pubblica anche alcuni indici bibliometrici) ha criteri troppo opachi per poter essere usato seriamente per la valutazione.
Probabilmente il più famoso degli indici bibliometrici, e uno dei più semplici, è il Journal Impact Factor, o IF, che è usato per tentare di quantificare l’autorevolezza, e quindi il prestigio, di una rivista scientifica e che fu inventato dallo stesso Garfield. L’idea è la seguente: un articolo di grande importanza riceverà moltissime citazioni da lavori successivi che riprendono l’argomento, lo espandono, in generale ne discutono. Questo è generalmente vero: gli articoli che annunciano l’osservazione del Bosone di Higgs o delle onde gravitazionali sono pietre miliari della fisica e sono stati tra i più citati degli ultimi anni. Alla base del Journal Impact Factor c’è l’assunto che si possa fare anche il ragionamento inverso, ossia che un articolo che riceve molte citazioni sia un articolo che ha avuto un grande impatto per la disciplina. Anche questo è probabilmente vero, ma bisogna intendersi sul significato di impatto: il famigerato articolo di Andrew Wakefield sulla correlazione tra il vaccino MMR e l’autismo, per quanto ampiamente screditato e addirittura ritirato, ha ricevuto moltissime citazioni, generalmente del tipo «a differenza di quanto sostenuto da Wakefield et al...». È certamente un impatto di qualche genere, ma forse non proprio quello che avevamo in mente.
Essendo consci di questo limite intrinseco, possiamo comunque costruire l’Impact Factor di una rivista sommando tutte le citazioni che gli articoli pubblicati da una rivista hanno ricevuto negli ultimi due anni, e dividendolo per il numero totale di articoli pubblicati. Più il numero ottenuto è alto, più la rivista potrà essere considerata, in qualche modo, autorevole e prestigiosa: Nature e Science, plausibilmente le due riviste scientifiche considerate più influenti dagli addetti ai lavori, nel 2022 avevano un IF rispettivamente di 69.5 e 63.7. Tutti i ricercatori ambiscono a pubblicare “un Nature”, e le riviste con IF alto lo citeranno nelle loro pubblicità.
Ma qui cominciano i problemi. Discipline diverse hanno andamenti diversi nelle citazioni, dovuti sia a diverse abitudini sia alla natura stessa della disciplina. Per esempio, il numero medio di citazioni ricevute da un articolo di una disciplina biomedica è superiore a 40, mentre uno di matematica o di scienze sociali ne riceverà in media poco più di 10 (i dati si riferiscono agli articoli pubblicati nel 1990). Così valori intorno a 60 o 70 possono essere considerati stellari per riviste generaliste come Nature o Science, ma impallidiscono davanti al 202.7 di Lancet, una rivista di medicina, o al 286.1 del relativamente oscuro e specialistico CA-A Cancer Journal for Clinicians, in testa alla classifica. Di converso, la fondamentale Physical Review non arriva neanche nei primi 100. Bisogna dunque fare molta attenzione a usare l’Impact Factor per confrontare l’autorevolezza di riviste di ambiti disciplinari differenti.
Un metodo alternativo all’IF, che viene calcolato e pubblicato da Clarivate sulla base dei dati di Web of Science, è il CiteScore realizzato da Elsevier sulla base dei dati di Scopus. C’è qualche differenza: CiteScore è calcolato sulla base di quattro anni invece di due, e quindi dovrebbe descrivere meglio discipline in cui lo sviluppo di un filone di ricerca è più lento. Per esempio, in media un articolo di fisica riceverà nei primi due anni più citazioni di uno di psicologia, ma questa relazione è destinata a invertirsi con il passare del tempo. In più, CiteScore conteggia anche gli editoriali, le lettere al direttore della rivista e gli articoli di commento, che sono invece esclusi dall’Impact Factor, che considera solo gli articoli scientifici propriamente detti.
Esistono poi altri indici più specializzati; per esempio l’Immediacy Index, numero medio delle citazioni ricevute dagli articoli nell’anno della loro pubblicazione, pensato per capire quanto rapidamente vengano citati i lavori pubblicati su una determinata rivista (Journal Immediacy Index) o di un determinato argomento o disciplina (Aggregate Immediacy Index). Oppure ancora la Citing half-life, che permette di valutare la “longevità” degli articoli di una rivista, e numerosi altri anche piuttosto complicati come lo Scimago Journal Rank o il Source Normalized Index per Paper (SNIP), che sono però meno usati del semplice Journal Impact Factor.
Fino a qui abbiamo parlato di indici al livello della rivista, ossia che permettono (almeno in teoria) considerazioni sull’autorevolezza o il prestigio di una rivista. Gli indici bibliometrici possono però essere costruiti su insiemi diversi di articoli, come per esempio nel caso del citato Aggregate Immediacy Index. Specificamente per lo scopo di valutare istituzioni o progetti di ricerca è possibile costruire gli indici selezionando i lavori prodotti per esempio dai ricercatori di un determinato istituto o dipartimento universitario, oppure finanziati grazie a uno specifico progetto. In questi casi generalmente si fa molta attenzione sia alla selezione dei lavori da includere nella valutazione, sia alla correzione di possibili elementi di distorsione, di cui parleremo. In Italia la valutazione della qualità della ricerca (scientifica e non solo) è demandata all’Agenzia nazionale di valutazione del sistema universitario e della ricerca (ANVUR): ne parliamo più in dettaglio nell’intervista ad Alessandra Celletti, vicepresidente dell’ANVUR, a pagina 43.
Mentre è molto importante notare che gli indici descritti fin qui sono indici aggregati, che non possono essere in alcun modo usati per quantificare la produzione scientifica di un singolo ricercatore, è però possibile costruire anche indici bibliometrici a questo livello. Ne esistono a bizzeffe: la pagina Wikipedia Author-level metrics ne elenca più di 20. Il più importante e noto è l’indice di Hirsch o h-index, proposto nel 2005 dal fisico argentino-statunitense Jorge E. Hirsch nel tentativo di definire un parametro che descrivesse sia la produttività scientifica (stimata attraverso il numero di paper pubblicati) sia l’impatto (attraverso il numero di citazioni ricevute). L’indice è costruito in modo appena più complicato dell’IF, prendendo in considerazione gli h articoli di un autore che abbiano ricevuto almeno h citazioni. Per esempio, un ricercatore avrà h=10 se ha pubblicato 10 articoli che hanno ricevuto almeno 10 citazioni ciascuno.
Oggi l’h-index è calcolato automaticamente e mostrato nella pagina relativa a un autore di Scopus e Clarivate Web of Science ed è sempre più usato come indicatore della produttività scientifica di un ricercatore, anche se come tutti gli indici ha dei limiti. Infatti, nonostante sia stato pensato per bilanciare produttività e impatto, in realtà è la prima a pesare di più. Per esempio, un ricercatore che abbia pubblicato 10 lavori con 10 citazioni ciascuno avrà un h-index di 10, mentre un altro con 5 articoli con 100 citazioni ciascuno avrà solo h=5, la metà del primo, anche se ha ricevuto cinque volte più citazioni e ha quindi, plausibilmente, un impatto molto maggiore sulla sua disciplina. Questo, come nel caso dell’Impact Factor, rende difficile fare confronti basati sull’h-index in gruppi disomogenei per anzianità o disciplina scientifica. Il numero di pubblicazioni cresce con il progredire della carriera, il numero di citazioni non necessariamente; e mentre nelle scienze biologiche e nella fisica si arriva a valori di h di 200 e oltre, nelle scienze sociali ci si ferma a 20–30; tant’è che nella classifica dei 10 scienziati italiani più citati riportata dall’edizione 2023 dell’Annuario Scienza Tecnologia e Società pubblicato da Observa (e che in realtà sono 14 a causa dei pari merito), 12 sono fisici delle alte energie. Un’altra critica, più profonda, è che proprio perché è un indice composto, h è difficile da interpretare: la produttività e l’impatto sono due cose diverse, ma h esattamente che cosa misura?
Praticamente tutti gli indici bibliometrici che si basano sulle citazioni, a tutti i livelli, condividono alcuni problemi. Intanto, basandosi esclusivamente o quasi sugli articoli pubblicati su riviste peer review, nascono a valle di questa revisione e risentono quindi di tutti i bias e i problemi discussi nell’articolo di Anna Rita Longo a pagina 29. Poi, sia che misurino la produttività sia che misurino l’impatto, si prestano a distorsioni e incoraggiano pratiche criticabili.
Per esempio, il desiderio di aumentare il numero delle pubblicazioni può spingere alla pratica cosiddetta di “affettare il salame”: invece di pubblicare un solo, corposo articolo con un risultato finale, usciranno numerosi articoli che documentano risultati intermedi o parziali, disperdendo le informazioni e rendendo la vita difficile ai lettori. Allo stesso modo, l’impatto può essere gonfiato attraverso le autocitazioni. Ovviamente se un ricercatore pubblica un aggiornamento su un suo lavoro già pubblicato, inserirà legittimamente una autocitazione; è però evidente come si possa abusare di questa possibilità per gonfiare l’impatto apparente del proprio lavoro. Ancora, come abbiamo già osservato, discipline diverse hanno strutture e abitudini diverse, che portano a disomogeneità e difficoltà nel fare confronti affidabili; per esempio in generale gli indici bibliometrici tendono a favorire le grandi collaborazioni tipiche della big science rispetto a gruppi più piccoli.
Un’ulteriore distorsione nel calcolare gli indici a livello di singolo autore viene dal fatto che non tutti gli autori hanno necessariamente dato lo stesso contributo: nella maggioranza delle discipline il primo autore è quello che ha dato il contributo maggiore e, generalmente, ha scritto l’articolo, mentre i successivi hanno dato un contributo via via decrescente, con l’eccezione dell’ultimo, che di solito è il direttore del laboratorio o del dipartimento; ha probabilmente contribuito alla progettazione dello studio e alla ricerca di finanziamenti ma spesso non ha lavorato concretamente alla ricerca. Sono stati quindi proposti indici per autore che pesano in modo diverso gli articoli a seconda della posizione (e anche qui non è semplice: il secondo autore avrà contribuito la metà del primo, un decimo, o magari solo appena meno?), ma subito ci si scontra con l’usanza delle grandi e grandissime collaborazioni, in cui spesso gli autori sono elencati semplicemente in ordine alfabetico.
Naturalmente è possibile ovviare in parte a questi problemi, per esempio escludendo le autocitazioni dal calcolo degli indici, oppure inventando indici più sofisticati che pesino in modo diverso le pubblicazioni in base a qualche criterio. Nel corso degli anni, però, la comunità scientifica ha cominciato a prendere coscienza non solo del fatto che la valutazione della ricerca basata solo, o principalmente, sugli indici bibliometrici non funziona benissimo, ma anche che, nell’opinione di molti, tutto questo ha provocato una frenetica attenzione agli indici bibliometrici, sottoponendo i ricercatori alla tentazione di farsi guidare più da una strategia di pubblicazione che da un reale interesse scientifico. Così, un po’ alla volta, la comunità ha cominciato a cercare modi per rimediare.
Un primo passo è stato compiuto nel 2012 con la San Francisco Declaration on Research Assessment (DORA), preparata da un gruppo di curatori ed editori di riviste scientifiche, che contiene raccomandazioni per le istituzioni, gli editori, i ricercatori, gli enti finanziatori, eccetera. La dichiarazione raccomanda, come primo punto generale, di non usare direttamente il Journal Impact Factor o altre metriche a livello di rivista nella valutazione della qualità della ricerca. La stessa DORA individua poi alcuni temi ricorrenti nelle (numerose) raccomandazioni:
Pochi anni dopo, un gruppo di esperti guidati da Diana Hicks, del Georgia Institute of Technology di Atlanta, e Paul Wouters, dell’università di Leida, nei Paesi Bassi, ha raccolto un decalogo sulla valutazione della ricerca nel Leiden Manifesto for Research Metrics, pubblicato su Nature nel 2005. Il primo e più importante principio va oltre la San Francisco DORA raccomandando di non usare gli indici quantitativi (tutti, non solo quelli a livello di rivista) come soli strumenti per la valutazione, ma come supporto a una valutazione qualitativa da parte di esperti cioè una peer review: un principio che è stato applicato dall’ANVUR nella più recente tornata di Valutazione della Qualità della Ricerca italiana, come racconta Alessandra Celletti nell'articolo che segue. Gli altri principi sono pensati per mitigare i problemi discussi sopra (per esempio, il sesto raccomanda di tener conto delle differenze tra le discipline) ma anche per garantire trasparenza e accountability nel processo di valutazione.
Un terzo passo è stato compiuto con gli Hong Kong Principles for Assessing Researchers, redatti durante la sesta World Conference on Research Integrity nel 2019 e pubblicati nel 2020. In questo caso l’attenzione è sull’evitare gli «incentivi perversi» che l’uso incauto degli indici bibliometrici fornisce, come abbiamo visto sopra, a pratiche discutibili come l’abuso delle auto-citazioni o peggio. I principi di Hong Kong suggeriscono quindi di valutare i ricercatori anche in base all’adozione di pratiche responsabili e trasparenti di open science, di valutare anche attività non legate alle pubblicazioni: peer review, tutoraggio di giovani ricercatori, diffusione della cultura scientifica, e ancora altro.
Infine, in uno sviluppo più concreto, la recente creazione della Coalition for Advancing Research Assessment (CoARA) ha lo scopo di impegnare le istituzioni che ne fanno parte a intraprendere un percorso di riforma delle loro pratiche di valutazione: ne parla Menico Rizzi, membro dello Steering Board di CoARA, nel box delle pagine precedenti.
Cosa si sta muovendo in Europa per quanto riguarda la valutazione della ricerca? Lo abbiamo chiesto a Menico Rizzi, professore ordinario di biochimica presso il dipartimento di scienze del farmaco dell’Università degli Studi del Piemonte Orientale, che fa parte del consiglio direttivo dell’ANVUR e dello Steering Board di CoARA.
La Commissione Europea ha recentemente riconosciuto l’esigenza, maturata negli ultimi anni all’interno della comunità scientifica, di riformare il modo in cui la ricerca viene valutata. Nel 2021 e 2022 sono state pubblicate due conclusioni del Consiglio Europeo con raccomandazioni che facevano esplicitamente riferimento alla necessità di superare l’uso improprio degli indici bibliometrici in tutti gli ambiti della valutazione, e di adottare e valorizzare le pratiche di open science. Questo ha dato inizio a un processo che, attraverso la creazione di un primo gruppo di lavoro, ha portato il 20 luglio 2022 alla pubblicazione dell’Agreement on reforming research assessment, un documento che indica una direzione comune per la riforma della valutazione della ricerca, nel rispetto dell’autonomia delle organizzazioni.
L’accordo, che è stato firmato da numerose istituzioni europee, si basa su dieci “commitment”, principi che le istituzioni devono far propri; i primi quattro sono quelli fondamentali e irrinunciabili:
Come si vede, il principio fondamentale è quello di recuperare l’elemento qualitativo, e quindi la peer review come suo strumento principale, in tutti gli ambiti della valutazione e considerando tutti i contributi alla ricerca e non solo gli articoli su rivista, con una specifica attenzione al multilinguismo. Questo naturalmente non vuole dire abbandonare completamente l’uso degli indici bibliometrici, ma farne uno strumento di supporto alla revisione tra pari, da usare in modo responsabile quando opportuno e tenendo conto delle loro limitazioni.
Al termine del processo, per coordinare l’implementazione dell’accordo, è stata quindi creata la Coalition for Advanced Research Assessment (CoARA), alla quale può aderire qualunque istituzione legata alla ricerca: enti finanziatori, università o organizzazioni che a qualunque titolo fanno al loro interno attività di valutazione.
A differenza di iniziative come la San Francisco Declaration on Research Assessment, l’adesione alla coalizione impegna l’istituzione a preparare entro un anno un piano che porti, nell’arco di cinque anni, a una prima revisione dei propri criteri, strumenti e processi di valutazione per renderli aderenti ai principi alla base dell’accordo. L’idea è di costruire dal basso una diversa cultura della valutazione, senza imposizione dall’alto di regole rigide che sarebbero difficilmente adattabili a tutti i diversi ambiti.
Per l’Europa hanno aderito tra gli altri la Commissione Europea, che finanzia la ricerca attraverso programmi come Horizon Europe, e l’European Research Council. L’Italia partecipa massicciamente all’iniziativa: è uno dei paesi europei più coinvolti, con finora più di 50 tra università e altre organizzazioni che hanno firmato l’accordo e aderito a CoARA. Tra queste anche l’ANVUR, che ha già fatto propri alcuni dei principi stabiliti dall’agreement in alcune delle sue procedure di valutazione [si veda anche l’intervista ad Alessandra Celletti a pag. 43], proponendosi di estenderne ulteriormente l’adozione.
Il prossimo passo sarà la creazione, all’interno della coalizione, di gruppi di lavoro tematici che affrontino le sfide che questa centralità della revisione tra pari pone: aspetti come la formazione dei revisori e il riconoscimento del loro impegno, l’attenzione ai bias come quello di genere, oppure ancora l’individuazione di possibili strumenti tecnologici per supportare il lavoro di revisione, come per esempio le tecnologie di AI per estrarre le informazioni dai documenti presentati per la valutazione.
CoARA nasce in Europa, ma è un’iniziativa internazionale con l’ambizione di avere rappresentatività globale; il processo è appena iniziato ma hanno già cominciato ad aderire istituzioni non europee. Ci aspettiamo che in futuro, anche attraverso una serie di iniziative in questa direzione, questo processo continui e la coalizione si allarghi in modo significativo.
Anche nel mondo della ricerca scientifica ci sono ovviamente modi più o meno efficienti di spendere il denaro del contribuente o degli investitori, finanziando questo o quel progetto o premiando un certo istituto di ricerca invece di un altro. Nella prima metà del XX secolo, con la nascita dei grandi enti pubblici finanziatori della ricerca come la National Science Foundation negli Stati Uniti o il Consiglio Nazionale delle Ricerche in Italia, divenne concreto il duplice problema di amministrare i fondi: da un lato scegliere quali progetti di ricerca finanziare, o quali ricercatori assumere o promuovere, in un ambiente sempre più competitivo, e dall’altro verificare a posteriori l’effettivo buon uso dei fondi erogati.
Una valutazione qualitativa da parte di esperti, una peer review in cui l’oggetto della valutazione non fosse il singolo lavoro scientifico ma qualcosa di più ampio, sarebbe stata plausibilmente la via più naturale, e forse la migliore (ne riparleremo). Ci si scontrava però con due problemi. Da un lato, la crescita letteralmente esponenziale della produzione scientifica rendeva improbo il compito: ciascun reviewer avrebbe dovuto valutare non una singola ricerca, ma l’intera produzione scientifica di un ricercatore o di un istituto. Dall’altro, sarebbe stato desiderabile un approccio più quantitativo e, almeno in teoria, più oggettivo.
Più o meno negli stessi anni stava nascendo la “scientometria” (l’uso del termine si diffuse soprattutto con la creazione nel 1978 della rivista Scientometrics da parte del chimico ungherese Tibor Braun), la disciplina che, nelle parole di uno dei suoi fondatori, lo storico della scienza inglese Derek De Solla Price, doveva «puntare gli strumenti della scienza sulla scienza stessa». La scientometria si distingue da approcci più “umanistici” e qualitativi, come la sociologia o la filosofia della scienza, per l’uso di strumenti quantitativi e di tecniche più vicine a quelle delle scienze fisiche che a quelle delle scienze umane e sociali. (Una digressione: il nome di Derek De Solla Price è probabilmente familiare ai lettori di Query per una ragione completamente diversa. Fu tra i primi, negli anni Cinquanta del Novecento, a studiare sistematicamente il famoso Meccanismo di Antikythera, e grazie all’uso di radiografie probabilmente il primo a capirne la natura, anche se con alcune imprecisioni che solo l’esame con strumenti più moderni permise di correggere.)
Una delle branche principali della scientometria è la “bibliometria”, ossia l’applicazione di tecniche matematiche e statistiche allo studio della diffusione e dell’impatto della letteratura scientifica. Nella sua forma più semplice, la bibliometria si basa sull’idea che il “mattone base” della produzione scientifica sia l’articolo pubblicato su una rivista sottoposta a peer review. D’altronde, la coincidenza del risultato scientifico di una ricerca con l’articolo in cui è pubblicato si riflette nel gergo dei ricercatori, che spesso usano il termine “lavoro” per indicare l’articolo stesso, in frasi come «ho pubblicato un lavoro su Nature»; lo faremo anche qui ogni tanto. La necessità di garantire, almeno in linea di principio, la riproducibilità dei risultati fa sì che gli autori di un articolo scientifico non debbano solo descrivere per filo e per segno tutto quello che hanno fatto, ma anche dichiarare la fonte di ogni informazione usata che non sia stata direttamente ricavata da loro. Di conseguenza, ogni articolo scientifico include una sezione bibliografica (le references) che può essere anche molto lunga; idealmente, seguendo all’indietro la traccia dei riferimenti bibliografici si potrebbe ricostruire tutta la catena di studi, ricerche ed esperimenti che hanno portato, per esempio, a una determinata scoperta.
Un indice per tutte le stagioni
Nel 1955 il chimico statunitense Eugene Garfield propose sulle pagine di Science la creazione di un indice generale delle citazioni tra articoli scientifici, che permettesse di navigare sia all’indietro che in avanti la rete costituita dalle pubblicazioni scientifiche su un determinato argomento. Pochi anni dopo, la società fondata da Garfield, l’Institute for Scientific Information (ISI), pubblicò per la prima volta il Science Citation Index (SCI): un indice che raccoglie le citazioni tra articoli scientifici. Pur tra molte trasformazioni e ampliamenti (il più importante forse è stato il passaggio dalla carta stampata a un formato digitale nel 1988), lo Science Citation Index esiste ancora: oggi fa parte della piattaforma Web of Science di Clarivate Analytics, anche se è ancora nota tra gli addetti ai lavori come “ISI Web of Science”, ed è uno dei principali database usati per la bibliometria.
Gli indici come SCI, e la bibliometria in generale, non nacquero tanto come strumenti per la valutazione della ricerca, ma per legare tra loro studi in base a somiglianze concettuali e creare una rete di «associazioni di idee» (nelle parole dello stesso Garfield) tra riviste e discipline diverse; tuttavia, l’idea alla base della bibliometria, cioè che analizzando questa rete di citazioni sia possibile ottenere informazioni quantitative sul processo di costruzione della conoscenza scientifica, era troppo ghiotta per non essere tentati di usarla per valutare la ricerca: quali studi sono stati più influenti, quali istituti di ricerca hanno dato il contributo più importante, qual è il ricercatore più brillante e molte altre cose.
Le informazioni che vengono dalla bibliometria possono essere condensate in parametri chiamati “indici bibliometrici”, che dovrebbero descrivere in modo sintetico e quantitativo aspetti diversi della produzione scientifica. Esistono molti indici bibliometrici, ciascuno con proprie caratteristiche e limiti, ma in sostanza tutti si basano sui dati delle citazioni tra articoli scientifici, oggi disponibili su due principali database: il citato SCI e Scopus, gestito dal gigante dell’editoria scientifica Elsevier. Entrambe queste piattaforme curano particolarmente la selezione delle riviste incluse nel database, mentre un terzo database, Google Scholar (che da qualche anno pubblica anche alcuni indici bibliometrici) ha criteri troppo opachi per poter essere usato seriamente per la valutazione.
Probabilmente il più famoso degli indici bibliometrici, e uno dei più semplici, è il Journal Impact Factor, o IF, che è usato per tentare di quantificare l’autorevolezza, e quindi il prestigio, di una rivista scientifica e che fu inventato dallo stesso Garfield. L’idea è la seguente: un articolo di grande importanza riceverà moltissime citazioni da lavori successivi che riprendono l’argomento, lo espandono, in generale ne discutono. Questo è generalmente vero: gli articoli che annunciano l’osservazione del Bosone di Higgs o delle onde gravitazionali sono pietre miliari della fisica e sono stati tra i più citati degli ultimi anni. Alla base del Journal Impact Factor c’è l’assunto che si possa fare anche il ragionamento inverso, ossia che un articolo che riceve molte citazioni sia un articolo che ha avuto un grande impatto per la disciplina. Anche questo è probabilmente vero, ma bisogna intendersi sul significato di impatto: il famigerato articolo di Andrew Wakefield sulla correlazione tra il vaccino MMR e l’autismo, per quanto ampiamente screditato e addirittura ritirato, ha ricevuto moltissime citazioni, generalmente del tipo «a differenza di quanto sostenuto da Wakefield et al...». È certamente un impatto di qualche genere, ma forse non proprio quello che avevamo in mente.
Essendo consci di questo limite intrinseco, possiamo comunque costruire l’Impact Factor di una rivista sommando tutte le citazioni che gli articoli pubblicati da una rivista hanno ricevuto negli ultimi due anni, e dividendolo per il numero totale di articoli pubblicati. Più il numero ottenuto è alto, più la rivista potrà essere considerata, in qualche modo, autorevole e prestigiosa: Nature e Science, plausibilmente le due riviste scientifiche considerate più influenti dagli addetti ai lavori, nel 2022 avevano un IF rispettivamente di 69.5 e 63.7. Tutti i ricercatori ambiscono a pubblicare “un Nature”, e le riviste con IF alto lo citeranno nelle loro pubblicità.
Limiti e alternative
Ma qui cominciano i problemi. Discipline diverse hanno andamenti diversi nelle citazioni, dovuti sia a diverse abitudini sia alla natura stessa della disciplina. Per esempio, il numero medio di citazioni ricevute da un articolo di una disciplina biomedica è superiore a 40, mentre uno di matematica o di scienze sociali ne riceverà in media poco più di 10 (i dati si riferiscono agli articoli pubblicati nel 1990). Così valori intorno a 60 o 70 possono essere considerati stellari per riviste generaliste come Nature o Science, ma impallidiscono davanti al 202.7 di Lancet, una rivista di medicina, o al 286.1 del relativamente oscuro e specialistico CA-A Cancer Journal for Clinicians, in testa alla classifica. Di converso, la fondamentale Physical Review non arriva neanche nei primi 100. Bisogna dunque fare molta attenzione a usare l’Impact Factor per confrontare l’autorevolezza di riviste di ambiti disciplinari differenti.
Un metodo alternativo all’IF, che viene calcolato e pubblicato da Clarivate sulla base dei dati di Web of Science, è il CiteScore realizzato da Elsevier sulla base dei dati di Scopus. C’è qualche differenza: CiteScore è calcolato sulla base di quattro anni invece di due, e quindi dovrebbe descrivere meglio discipline in cui lo sviluppo di un filone di ricerca è più lento. Per esempio, in media un articolo di fisica riceverà nei primi due anni più citazioni di uno di psicologia, ma questa relazione è destinata a invertirsi con il passare del tempo. In più, CiteScore conteggia anche gli editoriali, le lettere al direttore della rivista e gli articoli di commento, che sono invece esclusi dall’Impact Factor, che considera solo gli articoli scientifici propriamente detti.
Esistono poi altri indici più specializzati; per esempio l’Immediacy Index, numero medio delle citazioni ricevute dagli articoli nell’anno della loro pubblicazione, pensato per capire quanto rapidamente vengano citati i lavori pubblicati su una determinata rivista (Journal Immediacy Index) o di un determinato argomento o disciplina (Aggregate Immediacy Index). Oppure ancora la Citing half-life, che permette di valutare la “longevità” degli articoli di una rivista, e numerosi altri anche piuttosto complicati come lo Scimago Journal Rank o il Source Normalized Index per Paper (SNIP), che sono però meno usati del semplice Journal Impact Factor.
Fino a qui abbiamo parlato di indici al livello della rivista, ossia che permettono (almeno in teoria) considerazioni sull’autorevolezza o il prestigio di una rivista. Gli indici bibliometrici possono però essere costruiti su insiemi diversi di articoli, come per esempio nel caso del citato Aggregate Immediacy Index. Specificamente per lo scopo di valutare istituzioni o progetti di ricerca è possibile costruire gli indici selezionando i lavori prodotti per esempio dai ricercatori di un determinato istituto o dipartimento universitario, oppure finanziati grazie a uno specifico progetto. In questi casi generalmente si fa molta attenzione sia alla selezione dei lavori da includere nella valutazione, sia alla correzione di possibili elementi di distorsione, di cui parleremo. In Italia la valutazione della qualità della ricerca (scientifica e non solo) è demandata all’Agenzia nazionale di valutazione del sistema universitario e della ricerca (ANVUR): ne parliamo più in dettaglio nell’intervista ad Alessandra Celletti, vicepresidente dell’ANVUR, a pagina 43.
Valutare i singoli
Mentre è molto importante notare che gli indici descritti fin qui sono indici aggregati, che non possono essere in alcun modo usati per quantificare la produzione scientifica di un singolo ricercatore, è però possibile costruire anche indici bibliometrici a questo livello. Ne esistono a bizzeffe: la pagina Wikipedia Author-level metrics ne elenca più di 20. Il più importante e noto è l’indice di Hirsch o h-index, proposto nel 2005 dal fisico argentino-statunitense Jorge E. Hirsch nel tentativo di definire un parametro che descrivesse sia la produttività scientifica (stimata attraverso il numero di paper pubblicati) sia l’impatto (attraverso il numero di citazioni ricevute). L’indice è costruito in modo appena più complicato dell’IF, prendendo in considerazione gli h articoli di un autore che abbiano ricevuto almeno h citazioni. Per esempio, un ricercatore avrà h=10 se ha pubblicato 10 articoli che hanno ricevuto almeno 10 citazioni ciascuno.
Oggi l’h-index è calcolato automaticamente e mostrato nella pagina relativa a un autore di Scopus e Clarivate Web of Science ed è sempre più usato come indicatore della produttività scientifica di un ricercatore, anche se come tutti gli indici ha dei limiti. Infatti, nonostante sia stato pensato per bilanciare produttività e impatto, in realtà è la prima a pesare di più. Per esempio, un ricercatore che abbia pubblicato 10 lavori con 10 citazioni ciascuno avrà un h-index di 10, mentre un altro con 5 articoli con 100 citazioni ciascuno avrà solo h=5, la metà del primo, anche se ha ricevuto cinque volte più citazioni e ha quindi, plausibilmente, un impatto molto maggiore sulla sua disciplina. Questo, come nel caso dell’Impact Factor, rende difficile fare confronti basati sull’h-index in gruppi disomogenei per anzianità o disciplina scientifica. Il numero di pubblicazioni cresce con il progredire della carriera, il numero di citazioni non necessariamente; e mentre nelle scienze biologiche e nella fisica si arriva a valori di h di 200 e oltre, nelle scienze sociali ci si ferma a 20–30; tant’è che nella classifica dei 10 scienziati italiani più citati riportata dall’edizione 2023 dell’Annuario Scienza Tecnologia e Società pubblicato da Observa (e che in realtà sono 14 a causa dei pari merito), 12 sono fisici delle alte energie. Un’altra critica, più profonda, è che proprio perché è un indice composto, h è difficile da interpretare: la produttività e l’impatto sono due cose diverse, ma h esattamente che cosa misura?
Praticamente tutti gli indici bibliometrici che si basano sulle citazioni, a tutti i livelli, condividono alcuni problemi. Intanto, basandosi esclusivamente o quasi sugli articoli pubblicati su riviste peer review, nascono a valle di questa revisione e risentono quindi di tutti i bias e i problemi discussi nell’articolo di Anna Rita Longo a pagina 29. Poi, sia che misurino la produttività sia che misurino l’impatto, si prestano a distorsioni e incoraggiano pratiche criticabili.
Per esempio, il desiderio di aumentare il numero delle pubblicazioni può spingere alla pratica cosiddetta di “affettare il salame”: invece di pubblicare un solo, corposo articolo con un risultato finale, usciranno numerosi articoli che documentano risultati intermedi o parziali, disperdendo le informazioni e rendendo la vita difficile ai lettori. Allo stesso modo, l’impatto può essere gonfiato attraverso le autocitazioni. Ovviamente se un ricercatore pubblica un aggiornamento su un suo lavoro già pubblicato, inserirà legittimamente una autocitazione; è però evidente come si possa abusare di questa possibilità per gonfiare l’impatto apparente del proprio lavoro. Ancora, come abbiamo già osservato, discipline diverse hanno strutture e abitudini diverse, che portano a disomogeneità e difficoltà nel fare confronti affidabili; per esempio in generale gli indici bibliometrici tendono a favorire le grandi collaborazioni tipiche della big science rispetto a gruppi più piccoli.
Un’ulteriore distorsione nel calcolare gli indici a livello di singolo autore viene dal fatto che non tutti gli autori hanno necessariamente dato lo stesso contributo: nella maggioranza delle discipline il primo autore è quello che ha dato il contributo maggiore e, generalmente, ha scritto l’articolo, mentre i successivi hanno dato un contributo via via decrescente, con l’eccezione dell’ultimo, che di solito è il direttore del laboratorio o del dipartimento; ha probabilmente contribuito alla progettazione dello studio e alla ricerca di finanziamenti ma spesso non ha lavorato concretamente alla ricerca. Sono stati quindi proposti indici per autore che pesano in modo diverso gli articoli a seconda della posizione (e anche qui non è semplice: il secondo autore avrà contribuito la metà del primo, un decimo, o magari solo appena meno?), ma subito ci si scontra con l’usanza delle grandi e grandissime collaborazioni, in cui spesso gli autori sono elencati semplicemente in ordine alfabetico.
Riformare le pratiche
Naturalmente è possibile ovviare in parte a questi problemi, per esempio escludendo le autocitazioni dal calcolo degli indici, oppure inventando indici più sofisticati che pesino in modo diverso le pubblicazioni in base a qualche criterio. Nel corso degli anni, però, la comunità scientifica ha cominciato a prendere coscienza non solo del fatto che la valutazione della ricerca basata solo, o principalmente, sugli indici bibliometrici non funziona benissimo, ma anche che, nell’opinione di molti, tutto questo ha provocato una frenetica attenzione agli indici bibliometrici, sottoponendo i ricercatori alla tentazione di farsi guidare più da una strategia di pubblicazione che da un reale interesse scientifico. Così, un po’ alla volta, la comunità ha cominciato a cercare modi per rimediare.
Un primo passo è stato compiuto nel 2012 con la San Francisco Declaration on Research Assessment (DORA), preparata da un gruppo di curatori ed editori di riviste scientifiche, che contiene raccomandazioni per le istituzioni, gli editori, i ricercatori, gli enti finanziatori, eccetera. La dichiarazione raccomanda, come primo punto generale, di non usare direttamente il Journal Impact Factor o altre metriche a livello di rivista nella valutazione della qualità della ricerca. La stessa DORA individua poi alcuni temi ricorrenti nelle (numerose) raccomandazioni:
- - la necessità di eliminare l’uso di metriche relative alle riviste scientifiche, come i Journal Impact Factor, dai criteri per la distribuzione di fondi per la ricerca, per le assunzioni e le promozioni;
- - la necessità di valutare la ricerca scientifica per i suoi meriti intrinseci piuttosto che sulla base della rivista in cui viene pubblicata;
- - la necessità di sfruttare le opportunità offerte dalla pubblicazione online (per esempio [...] esplorando nuovi indicatori di rilevanza e di impatto).
Pochi anni dopo, un gruppo di esperti guidati da Diana Hicks, del Georgia Institute of Technology di Atlanta, e Paul Wouters, dell’università di Leida, nei Paesi Bassi, ha raccolto un decalogo sulla valutazione della ricerca nel Leiden Manifesto for Research Metrics, pubblicato su Nature nel 2005. Il primo e più importante principio va oltre la San Francisco DORA raccomandando di non usare gli indici quantitativi (tutti, non solo quelli a livello di rivista) come soli strumenti per la valutazione, ma come supporto a una valutazione qualitativa da parte di esperti cioè una peer review: un principio che è stato applicato dall’ANVUR nella più recente tornata di Valutazione della Qualità della Ricerca italiana, come racconta Alessandra Celletti nell'articolo che segue. Gli altri principi sono pensati per mitigare i problemi discussi sopra (per esempio, il sesto raccomanda di tener conto delle differenze tra le discipline) ma anche per garantire trasparenza e accountability nel processo di valutazione.
Un terzo passo è stato compiuto con gli Hong Kong Principles for Assessing Researchers, redatti durante la sesta World Conference on Research Integrity nel 2019 e pubblicati nel 2020. In questo caso l’attenzione è sull’evitare gli «incentivi perversi» che l’uso incauto degli indici bibliometrici fornisce, come abbiamo visto sopra, a pratiche discutibili come l’abuso delle auto-citazioni o peggio. I principi di Hong Kong suggeriscono quindi di valutare i ricercatori anche in base all’adozione di pratiche responsabili e trasparenti di open science, di valutare anche attività non legate alle pubblicazioni: peer review, tutoraggio di giovani ricercatori, diffusione della cultura scientifica, e ancora altro.
Infine, in uno sviluppo più concreto, la recente creazione della Coalition for Advancing Research Assessment (CoARA) ha lo scopo di impegnare le istituzioni che ne fanno parte a intraprendere un percorso di riforma delle loro pratiche di valutazione: ne parla Menico Rizzi, membro dello Steering Board di CoARA, nel box delle pagine precedenti.
Un’iniziativa comune per la ricerca europea
Cosa si sta muovendo in Europa per quanto riguarda la valutazione della ricerca? Lo abbiamo chiesto a Menico Rizzi, professore ordinario di biochimica presso il dipartimento di scienze del farmaco dell’Università degli Studi del Piemonte Orientale, che fa parte del consiglio direttivo dell’ANVUR e dello Steering Board di CoARA.
La Commissione Europea ha recentemente riconosciuto l’esigenza, maturata negli ultimi anni all’interno della comunità scientifica, di riformare il modo in cui la ricerca viene valutata. Nel 2021 e 2022 sono state pubblicate due conclusioni del Consiglio Europeo con raccomandazioni che facevano esplicitamente riferimento alla necessità di superare l’uso improprio degli indici bibliometrici in tutti gli ambiti della valutazione, e di adottare e valorizzare le pratiche di open science. Questo ha dato inizio a un processo che, attraverso la creazione di un primo gruppo di lavoro, ha portato il 20 luglio 2022 alla pubblicazione dell’Agreement on reforming research assessment, un documento che indica una direzione comune per la riforma della valutazione della ricerca, nel rispetto dell’autonomia delle organizzazioni.
L’accordo, che è stato firmato da numerose istituzioni europee, si basa su dieci “commitment”, principi che le istituzioni devono far propri; i primi quattro sono quelli fondamentali e irrinunciabili:
- 1. riconoscere la molteplicità dei contributi e delle carriere nella ricerca, in accordo con le esigenze e la natura della ricerca;
- 2. basare la valutazione della ricerca principalmente su una valutazione qualitativa, per la quale la revisione tra pari è centrale, supportata da un uso responsabile degli indicatori quantitativi;
- 3. abbandonare l’uso improprio, nella valutazione della ricerca, di metriche basate su riviste e pubblicazioni, in particolare l’uso improprio del Journal Impact Factor e dell’h-index;
- 4. evitare l’uso di classifiche degli organismi di ricerca nella valutazione della ricerca.
Come si vede, il principio fondamentale è quello di recuperare l’elemento qualitativo, e quindi la peer review come suo strumento principale, in tutti gli ambiti della valutazione e considerando tutti i contributi alla ricerca e non solo gli articoli su rivista, con una specifica attenzione al multilinguismo. Questo naturalmente non vuole dire abbandonare completamente l’uso degli indici bibliometrici, ma farne uno strumento di supporto alla revisione tra pari, da usare in modo responsabile quando opportuno e tenendo conto delle loro limitazioni.
Al termine del processo, per coordinare l’implementazione dell’accordo, è stata quindi creata la Coalition for Advanced Research Assessment (CoARA), alla quale può aderire qualunque istituzione legata alla ricerca: enti finanziatori, università o organizzazioni che a qualunque titolo fanno al loro interno attività di valutazione.
A differenza di iniziative come la San Francisco Declaration on Research Assessment, l’adesione alla coalizione impegna l’istituzione a preparare entro un anno un piano che porti, nell’arco di cinque anni, a una prima revisione dei propri criteri, strumenti e processi di valutazione per renderli aderenti ai principi alla base dell’accordo. L’idea è di costruire dal basso una diversa cultura della valutazione, senza imposizione dall’alto di regole rigide che sarebbero difficilmente adattabili a tutti i diversi ambiti.
Per l’Europa hanno aderito tra gli altri la Commissione Europea, che finanzia la ricerca attraverso programmi come Horizon Europe, e l’European Research Council. L’Italia partecipa massicciamente all’iniziativa: è uno dei paesi europei più coinvolti, con finora più di 50 tra università e altre organizzazioni che hanno firmato l’accordo e aderito a CoARA. Tra queste anche l’ANVUR, che ha già fatto propri alcuni dei principi stabiliti dall’agreement in alcune delle sue procedure di valutazione [si veda anche l’intervista ad Alessandra Celletti a pag. 43], proponendosi di estenderne ulteriormente l’adozione.
Il prossimo passo sarà la creazione, all’interno della coalizione, di gruppi di lavoro tematici che affrontino le sfide che questa centralità della revisione tra pari pone: aspetti come la formazione dei revisori e il riconoscimento del loro impegno, l’attenzione ai bias come quello di genere, oppure ancora l’individuazione di possibili strumenti tecnologici per supportare il lavoro di revisione, come per esempio le tecnologie di AI per estrarre le informazioni dai documenti presentati per la valutazione.
CoARA nasce in Europa, ma è un’iniziativa internazionale con l’ambizione di avere rappresentatività globale; il processo è appena iniziato ma hanno già cominciato ad aderire istituzioni non europee. Ci aspettiamo che in futuro, anche attraverso una serie di iniziative in questa direzione, questo processo continui e la coalizione si allarghi in modo significativo.