Nella nuova era dell’intelligenza artificiale, la salvaguardia e la gestione corretta dei dati – compresa la loro interoperabilità tra soggetti diversi finalizzata al riutilizzo – è un elemento essenziale a cui porre attenzione. A maggior ragione per i dati associati ai progetti di ricerca, che rappresentano la base vitale dell’industria farmaceutica e che sono spesso prodotti anche all’interno di laboratori universitari o di altri enti di ricerca.
Attualmente si osserva una grande frammentazione degli standard e delle modalità per l’acquisizione, la conservazione e la gestione dei dati a livello dei diversi enti di ricerca e delle organizzazioni che erogano i finanziamenti per i progetti. Sarebbe quindi opportuno allineare a livello internazionale i requisiti dei sistemi di Research data management (Rdm) e disporre di criteri comuni per la redazione dei Data management plan (Dmp) e per la scelta di archivi affidabili per la loro conservazione. Un obiettivo a cui a cercato di rispondere la linea guida ‘Practical guide to the international alignment of research data management’ pubblicata da Science Europe, l’associazione europea che riunisce gli enti di ricerca e le organizzazioni di finanziamento della stessa a livello europeo. La guida è stata realizzata con la collaborazione di diverse realtà membri di Science Europe e con consultazione di tutte le diverse parti interessate al problema.
Una base comune per una migliore condivisione dei dati
La guida punta a permettere ai singoli ricercatori di rispondere in modo adeguato ai requisiti Rdm anche qualora le loro attività di ricerca siano finanziate e gestite all’interno di organizzazioni diverse, che potrebbero far riferimento a diverse modalità per la gestione dei dati. La speranza espressa dal segretario generale di Science Europe, Stephan Kuster, è che essa possa incoraggiare maggiormente la comunità della ricerca ad utilizzarla su base regolare per la preparazione dei propri modelli di Data management plan. “In uno stadio successivo, la linea guida potrebbe anche servire come documento di riferimento per la valutazione dei Dmp”, ha aggiunto Kuster.
“L’allineamento è particolarmente importante alla luce dello sviluppo dello European Open Science Cloud (EOSC) e della tendenza crescente alla condivisione dei dati nella comunità scientifica”, ha spiegato Stan Gielen, presidente dell’Organizzazione olandese per la ricerca scientifica e membro del board di Science Europe.
La qualità dei dati è importante
Con l’avvento dei sistemi di intelligenza artificiale e la condivisione e il riutilizzo dei dati ottenuti dalle attività di ricerca, la loro elevata qualità diventa sempre più un prerequisito fondamentale per assicurare la solidità dei risultati che a partire da essi vengono ricavati. La qualità e la possibilità di riutilizzo dei dati pubblicamente disponibili sono state finora basate sui principi Fair (findable, accessible, interoperable, re-usable), che la linea guida sviluppata da Science Europe si propone ora d’integrare con una visione più approfondita della gestione dei dati.
In particolare, il documento propone una serie di core requirements che dovrebbero sempre venire rispettati da tutte le organizzazioni di ricerca nella messa a punto dei propri piani per la gestione dei dati. Requisiti che impattano su come i dati sono generati, raccolti e conservati, fin dalle primissime fasi di vita di un nuovo progetto di ricerca. Gli esperti di Science Europe hanno anche predisposto un modello molto dettagliato di Dmp, che può essere personalizzato rispetto alle diverse esigenze e che rappresenta una guida alla stesura di piani di gestione che siano basati su una visione condivisa del problema. L’Annex della linea guida fornisce anche una tabella di comparazione dei criteri proposti con i principi Fair.
I principi essenziali per la buona gestione dei dati
Sono sei i principi fondamentali individuati dalla linea guida, per ciascuno dei quali vengono anche proposte delle domande di approfondimento che dovrebbero permettere di meglio ragionare sulla situazione particolare che si deve affrontare. I passaggi da considerare partono dalla descrizione dei dati e delle modalità per la raccolta o il riutilizzo; devono anche essere definite la documentazione e le misure di sicurezza collegate con la gestione e la trasmissione dei dati. Naturalmente non possono mancare considerazioni sulla conservazione e le misure per il backup necessaire per garantire la sicurezza dei dati durante le attività di ricerca. I ricercatori dovrebbero anche averi chiari i codici di condotta da seguire per quanto riguarda i requisiti etici e legali connessi con la gestione dei dati. Devono essere chiaramente definite anche tutte le responsabilità relative alla gestione dei dati e delle risorse (economiche e di tempo) necessarie alla loro gestione secondo i principi Fair.
È infine necessarie una politica chiara per il riutilizzo dei dati e per la loro conservazione a lungo termine, che consideri anche i software utilizzati per conservare e accedere ai dati, la scelta degli archivi, il ricorso a identificativi unici (come ad es. il digital object identifier).
I criteri per la scelta di archivi affidabili
L’archivio prescelto per la conservazione dei dati non è un elemento secondario, in quanto deve garantire la possibilità di accesso e riutilizzo anche a distanza di tempo da parte di tutte le parti interessante a utilizzare i dati per condurre nuove attività di ricerca. Non esistono la momento standard condivisi che permettano un’agevole valutazione dell’affidabilità degli oltre duemila archivi censiti nei registri generali, a livello globale.
Tra i problemi principali segnalati dal documento, il fatto che molti di questi archivi non sono stati certificati da parte di organismi notificati. Molti archivi dedicati a specifiche discipline, inoltre, seguono gli standard tipici della disciplina in oggetto, mentre altri sono basati su criteri molto più generali. Gli archivi disciplina-specifici e quelli certificati dovrebbero sempre rappresentare la prima scelta per la conservazione dei dati di ricerca, sottolinea Science Europe, che nella linea guida suggerisce anche quattro criteri per guidare nella scelta di un archivio affidabile.
Innaniztutto, l’archivio dovrebbe fornire un persistent and unique identifier (Pid) di modo da permettere la corretta identificazione, ricerca e recupero dei dati; i Pid favoriscono anche il risalire alle diverse versioni dei dati. Dovrebbero anche essere disponibili metadati per la ricerca e l’indicizzazione dei dati e delle informazioni ad esse correlate; i metadati possono anche essere utilizzati per fornire pubblicità dei dati non pubblicati, protetti, ritirati o distrutti. Gli standard per i metadati dovrebbero essere ampiamente condivisi da parte della comunità scientifica e dovrebbero permettere la ricerca automatizzata. La preservazione dell’informazione dovrebbe venire assicurata dalla persistenza dei dati e dei metadati. Tutti i piani e le politiche per la gestione dei dati dovrebbero essere trasparenti, anche per quanto riguarda la governance, la sostenibilità economica, i periodi di conservazione e i piani per la continuità.
L’accesso ai dati dovrebbe essere permesso sulla base dell’esistenza di specifiche condizioni. A questo fine, è importante poter garantire sempre l’autenticità e l’integrità dei dati. Le informazioni sul licensing e sui permessi d’accesso dovrebbero venire fornite sempre, meglio se in forma machine-readable, e dovrebbe sempre venire garantita anche la confidenzialità dei dati e il rispetto dei diritti dei soggetti a cui appartengono e di chi li ha generati.