Debatt ● stansberg, hovig, willassen, jonassen
Det er arbeidskrevende å gjøre data delbare!
For å løfte norsk forskning videre, og gjøre det mulig å bruke metoder fra data science og kunstig intelligens, er det nødvendig at forskningsdata deles på en fair måte.
OBS! Denne artikkelen er mer enn tre år gammel, og kan inneholde utdatert informasjon.
Denne teksten er et debattinnlegg. Innholdet i teksten uttrykker forfatterens egen mening.
DELING AV DATA| Administrerende direktør i Norges Forskningsråd, Mari Sundli Tveit, uttrykte nylig i Khrono at vi burde ha kommet lengre med deling av forskningsdata, og nevnte spesielt det enorme behovet for å dele kunnskap i forbindelse med Covid-19. I Elixir Norge støtter vi helhjertet opp om Sundli Tveits appell og berømmer Forskningsrådet (NFR) for deres innsats på området. Leder for EU-kommisjonens enhet for åpen forskning, Kostas Glinos, har også uttrykt frustrasjon over at det ikke deles så mye som det burde i en pandemi.
I et foredrag for Elixir, trakk han nylig fram to hovedutfordringer for åpen forskning; å forbedre praksis blant forskere, finansiører og institusjoner, og å utvikle løsninger som legger til rette for deling. Her ønsker vi å kaste lys over det møysommelige arbeidet som nå gjøres for at det skal bli mulig å dele data på en fair måte innen livsvitenskap, inkludert Covid-19.
Elixir er den europeiske forskningsinfrastrukturen for livsvitenskapsdata, og har som misjon å sikre at forskningsdata tas vare på for bruk og gjenbruk, nå og i overskuelig framtid. Elixir ivaretar ikke bare data, men utvikler òg verktøy som gjør det mulig å gjenbruke disse gjennom spesialiserte databaser og registre med basis i Fair-prinsippene. Vi i Elixir Norge driver den norske noden i Elixir-nettverket, og tilbyr databaser, verktøy og tjenester sprunget ut av det norske forskningsmiljøet, i tillegg til at vi bidrar til felles europeiske prosjekter som sikrer Fair tilgang til data for norske brukere.
Innen livsvitenskap har vi et stort behov for å harmonisere og standardisere data fra ulike forskningsdomener. Behovet gjør seg også sterkt gjeldende når vi skal legge til rette for fair deling av disse dataene. Den gode nyheten her er at vi er kommet godt i gang. NFR finansierte i 2019 en helt ny forskningsinfrastruktur, BioMedData, som skal legge til rette for at store deler av de livsvitenskapsdata som produseres i Norge kan deles på en Fair måte. BioMedData er et samarbeid mellom Elixir Norge og ti nasjonale forskningsinfrastrukturer som hver genererer eller forvalter ulike typer livsvitenskapsdata.
En del av dette arbeidet innebærer å kartlegge hva som skal til for at brukere av infrastrukturene skal kunne generere Fair data, og hvordan disse igjen kan deles i spesialiserte databaser. Vi har nylig publisert en ‘gap-rapport’ som beskriver resultatene av denne kartleggingen. Denne viser tydelig at det er et stykke igjen før flere av disse datatypene kan deles og gjenbrukes på en Fair måte, og at arbeidet krever tid og dedikert arbeidskraft, i form av både datahåndterere og dataforvaltere.
Parallelt med BioMedData fikk Elixir i Europa finansiering fra EU-kommisjonen til et stort beslektet prosjekt, Elixir Converge, som blant annet bygger opp kompetanse innen datahåndtering og -forvaltning i alle nasjonale Elixir-noder, kartlegger mangler og behov, og samler datahåndteringsverktøy samt utarbeider god praksis for å oppnå Fair data. En av de viktigste leveransene i dette prosjektet er RDMkit, en innholdsrik ‘verktøykasse’ eller veiledning, som hjelper brukere med ulik bakgrunn å håndtere sine data på en Fair måte. I Converge-prosjektet er det også et sterkt fokus på opplæring og kompetansebygging innen datahåndtering, både for dataforvaltere og forskere.
Disse investeringene ble gjort før COVID-19-pandemien var et faktum og når den så slo til, var Europa ganske godt rustet for å kunne dele data om viruset og sykdommen. En rekke europeiske forskningsinfrastrukturer, med Elixir og EMBL-EBI i spissen, gikk sammen om å lansere en felles portal, Covid-19 Data Portal, for å samle all tilgjengelig informasjon om viruset og sykdommen, slik at det nå er enklere for forskere både å dele egne data og finne andres. I Elixir Norge har vi laget en norsk filial av denne, som retter seg mot norske forskere. Vi har videre utviklet en database, SARS-CoV-2 DB, som samler, standardiserer og kvalitetssikrer alle tilgjengelige SARS-CoV-2-sekvenser verden over.
Som en respons på pandemien slo EU-kommisjonen mynt på sine tidligere investeringer innen Fair data, og valgte å utvide flere eksisterende prosjekter til også å omfatte målrettet arbeid med Covid-19-data fra ulike vinkler. Tre rause tillegg til Converge-prosjektet gjør nå at forskere over hele Europa raskere kan arbeide fram en sikker løsning for å dele humane data knyttet til Covid-19, samle mer Fair data i Covid-19-portalen og bistå nasjonale enheter med å dele virus-sekvenser. Elixir Norge leder det sistnevnte arbeidet i samarbeid med Elixir Sveits, og sammen med FHI legger vi nå til rette for at også norske SARS-CoV-2-sekvenser kan deles på en FAIR måte.
Det er et institusjonelt ansvar å sørge for at data fra egne forskere blir ivaretatt.
EOSC (European Open Science Cloud) skal gjøre forskningsdata og verktøy sømløst tilgjengelig for forskere på tvers av nasjonale og faglige grenser. Elixir koordinerer flere EOSC-prosjekter som samler ulike europeiske forskningsinfrastrukturer på tvers av livsvitenskapene, deriblant EOSC-Life. EU-kommisjonen har også benyttet dette etablerte prosjektet for å gjøre en spesiell innsats i forhold til Covid-19, blant annet med et tillegg for å muliggjøre deling av data om enkeltpasienter i kliniske forsøk knyttet til Covid-19. Her spiller Elixir Norge og Tjenester for Sensitive Data (TSD) ved UiO en sentral rolle ved å tilby tekniske løsninger for deling av sensitive data.
Vi støtter helhjertet et videre engasjement i EOSC, men vil også minne om at det å gjøre forskningsdata Fair krever innsats både i utvikling av løsninger for å dele data (infrastruktur-utvikling), og fra enkeltforskere som skal dele sine forskningsdata. Det er et institusjonelt ansvar å sørge for at data fra egne forskere blir ivaretatt. Det å sikre Fair deling fordrer nasjonalt og internasjonalt samarbeid. Vi applauderer at Sundli Tveit støtter EOSC og tror at NFR, sammen med institusjonene, kan spille en sentral rolle i å få til gode løsninger som kan løfte kvaliteten og synligheten til norsk forskning - og samtidig øke nasjonal evne til data-intensiv innovasjon.
For å løfte norsk forskning videre, og gjøre det mulig å bruke metoder fra data science og kunstig intelligens i både forskning og innovasjon, er det nødvendig at forskningsdata deles på en Fair måte. Vi tror at erfaringer fra livsvitenskapene, blant annet gjennom Elixir, kan være nyttige i det arbeidet som skal til for å gjøre data innen andre doméner Fair.