Vil ha forskningsdata på bordet

Er det rimelig å få vitenskapelig anerkjennelse for forskning uten å vise fram grunnlaget? Tidsskrifter må kreve at data publiseres samtidig med resultatene, slår en artikkel fra International Science Council fast.

Tegnet illustrasjon av mennesker som jobber med data rundt et stort forstørrelsesglass
Illustrasjon: Shutterstock
Omslag forskningsetikk nr. 1 2022
2022:1 Magasinet Forskningsetikk Magasinet Forskningsetikk er et uavhengig fagblad om forskningsetikk som utgis av De nasjonale forskningsetiske komiteene (FEK). ISSN digital utgave: 2387-3094.

Det er flott at vitenskapen kan snu seg fort rundt slik den gjorde i utviklingen covid-19-vaksiner. Samtidig må vi passe på at vårt vitenskapelige immunsystem også er oppe og går, sier Michael Barber, professor emeritus i matematikk og fysikk ved Flinders University i Australia.  

Fra hjemmekontoret, innrammet av hyller og stabler med bøker, forteller Barber via Zoom om sin bekymring: den store økningen av preprints i ly av pandemien. 

Preprints er vitenskapelige artikler som publiseres over nettet, men som ikke er fagfellevurdert. 99 av 100 medisinske tidsskrifter aksepterer nå preprints, ifølge en lederartikkel i Tidsskrift for Den norske legeforening. 

Barber mener tilbaketrekningen av en artikkel i The Lancet i juni 2020 er et godt eksempel på at det er på tide at publikasjonene går etikken etter i sømmene. Artikkelen førte til at forsøk med malariamedisinen hydroksyklorokin i behandlingen av covid-19 ble stoppet. I etterkant ble det imidlertid avdekket feil og manglende data.  

– Det er utrolig skuffende og alarmerende at før publiseringen i et så seriøst tidsskrift hadde ingen etterprøvd datagrunnlaget, sier Barber.  

Foreslår to reformer 

Etter tilbaketrekning har The Lancet innført nye krav for publisering, ifølge Barber. I artikler som bygger på større mengder data, må det nå dokumenteres at flere enn én av forfatterne har gått gjennom og verifisert før publisering. Ikke godt nok, mener han.   

Etter en urovekkende økning av det han kaller «sloppy science» og preprints i kjølvannet av pandemien, tok han for seg spørsmålet «Hva kan tidsskriftene gjøre?» i artikkelen «Strenghtening research policy – the role and responsibilites of publishers». Den ble publisert i november av International Science Council (ISC), der Barber selv sitter styringsgruppen for vitenskapelig publisering.  

Barber foreslår det han kaller to beskjedne, men viktige reformer, hvorav den første er at data må publiseres i tillegg til forskningsartikkelen.  

– Det er sjokkerende at det i dag ikke finnes noe godt system for krav til etterprøving av data, med tanke på hvor mye samfunnet vårt faktisk bygger på forskningsresultater, sier Barber. 

Forhåndsregistrering av forskning – i tråd med anbefalinger fra The International Committee of Medical Journal Editors (ICMJE) i 2017 – må også til, mener han.  

– Å på forhånd kunne vise til at dette er min metode, dette er mine data, er viktig. Da unngår en for eksempel at dataene endres underveis for å få dem til å passe med det ønskede resultatet.   

Bedre fagfellevurderinger 

Det andre forslaget er endring av systemet for fagfellevurdering. En enkel reform ville vært å kreve at fagfellene samt redaktørene stiller to spørsmål: Er det nok tilgjengelig informasjon om forskningsmetoden, og om nødvendig: Er dataene tilgjengelige, så det er mulig å reprodusere dette arbeidet?   

Han skriver om hvordan det gikk til da Tsuyoshi Miyakawa, redaktør for tidsskriftet Molecular Brain, etterspurte rådata fra forfattere av 41 manuskripter før de skulle revideres. 21 av artikkelforfatterne trakk automatisk artiklene tilbake da de fikk spørsmålet, mens 19 av de 20 resterende manuskriptene refuserte Miyakawa selv fordi forfatterne aldri presenterte rådata. Dette fikk redaktøren til å stille spørsmålet: Når så mange som 98 prosent ikke la rådata på bordet, kunne det bety at de faktisk ikke finnes? 

Barber peker på at overraskende mange redaktører ikke bruker statistiske eksperter til å evaluere innleverte manuskripter. Det kan være nødvendig hvis datamaterialet er komplekst og uforståelig.   

– I artikkelen har jeg tatt opp hva jeg mener publikasjonene kan gjøre for å bedre forskningens integritet. Det er samtidig begrenset hva de kan gjøre, og jeg savner en grundig debatt og engasjement om dette blant forskere. Mange forskere og andre i akademia er dessverre redde for å miste privilegier og fordeler hvis de stiller spørsmål, sier Barber til Magasinet Forskningsetikk.  

En utdatert oppskrift? 

– Jeg tenker vi har kommet dithen at det er på tide å stille spørsmålet: «Er det rimelig å få vitenskapelig anerkjennelse for forskning dersom grunnlaget for resultatene ikke er mulig å få innsyn i?» sier Jan G. Bjaalie, professor ved UiO og nestleder i Nasjonalt utvalg for gransking av uredelighet i forskning (GRU). 

Å kunne verifisere datagrunnlaget er et kjernespørsmål i publiseringsetikk, mener han.   

– Selv med senere tids beriking av publikasjoner med digitale virkemidler er dataene som er samlet inn, vanligvis ikke tilgjengelige. Dette kan ha naturlige forklaringer, men ikke alltid. Noen forskningsfelt preges av en «stol på oss»-mentalitet eller «det er for mye jobb å vise frem dataene»-holdning. Mange publikasjoner ligger derfor i en tåkesky, og inne i denne skyen kan det befinne seg kamuflerte etiske utfordringer, påpeker Bjaalie. 

Problemstillingen faller inn under begrepet reproduserbar forskning. Når datagrunnlaget ikke er tilgjengelig for andre forskere, kan de ikke bruke de samme metodene eller andre analysemetoder for å se om de kommer til samme konklusjon. 

Dersom forskningen gjøres mer transparent og dataene gjøres tilgjengelige – noe Bjaalie beskriver som at «tåkeskyen forsvinner i solen» – vil utfordringene med data komme til syne og bli håndtert til beste for forskningen og samfunnet.  

EBRAINS for åpenhet 

Bjaalie synes det er tankekors at publiseringssystemet nesten drives på samme måte som det gjorde da det oppsto for 300 år siden. I dag er det derimot en stor industri. Senere forbedringer er fagfelleevaluering (20. århundre) og økt bruk av digitale ressurser knyttet til publikasjonene (21. århundre).

FAIR-prinsippet 

Akronymet FAIR står for Findable, Accessible, Interoperable og Reusable.  Artikkelen «FAIR Guiding Principles for Scientific Data Management and Stewardship» fra mars 2016 spesifiserte prinsippene:  

  • Gjenfinnbar (Findable): enkelt å identifisere og finne for både mennesker og datamaskiner, med metadata som letter søk etter spesifikke datasett 
  • Tilgjengelig (Accessible): lagret på lang sikt slik at dataene lett kan nås og/eller lastes ned 
  • Samhandlende (Interoperable): klar til å bli kombinert med andre datasett av mennesker eller datamaskiner 
  • Gjenbrukbar (Reusable): klar til å brukes til fremtidig forskning og til videre bearbeiding; krever tilstrekkelig informasjon om hvordan dataene ble innhentet og behandlet, samt lisens 

Kilde: openscience.no 

Heldigvis er det flere gode internasjonale initiativer til infrastruktur for datadeling der data sampubliseres med publikasjonene.  

– Finansører av forskning verden rundt har sluttet seg til FAIR-prinsippet (se faktaboks). Men de faktiske kravene til å gjøre data tilgjengelig varierer fortsatt mye, og finansører strever med å sette tydelige nok krav. 

Selv er Bjaalie med og leder det EU-finansierte forskningsprosjektet Human Brain Project som bygger EBRAINS, en infrastruktur for hjerneforskning og hjerneinspirert teknologiutvikling. EBRAINS utvikler digitale verktøy og hjelper forskere til å samle inn, analysere, dele og kombinere hjernedata, og utføre modellering og simulering av hjernefunksjonen. Sentralt i dette står blant annet en ny organisering av metadata som gjør det lettere å finne, forstå og gjenbruke hjernedata. 

Redaktør som avslører fusk 

Hva gjør tidsskriftene selv? Variasjonen er stor. Maria Zalm forteller hvordan de gjør det i Public Library of Science (PLOS), hvor hun jobber med publiseringsetikk som redaktør. Ideen til PLOS startet i 2000 da 34 000 forskere fra 180 land signerte et brev der de etterspurte endring og mer åpenhet i vitenskapelig publisering. I 2003 lanserte de sitt første tidsskrift med åpen tilgang. I dag utgir PLOS 11 tidsskrifter, deriblant PLOS ONE som er blant verdens største åpne tidsskrifter. 

– PLOS krever at alle data må være åpne, det er et viktig prinsipp for å få mer transparens og etterprøvbarhet i forskning. Det løfter vitenskapens rolle i samfunnet og hjelper forskere å komme i kontakt med hverandre, samarbeide og få nye ideer, sier Zalm. 

Jobbhverdagen hennes går med til å grave seg ned i påstander om juks og andre kritikkverdige forhold som dukker opp i etterkant av at artiklene er publisert. Sakene er ressurskrevende og kan ta lang tid å behandle. Grunnen til at Zalm og kollegaene kommer på banen etter publisering, er at mange av avsløringene og ​klagene oppstår først da. Det peker også på utfordringen med at det er begrenset hvor grundig fagfellene kan gå til verks.  

Mellom 2018 og 2020 fikk PLOS henvendelser som gjorde at de måtte undersøke 1 prosent av de publiserte artiklene. 0,13 prosent av disse igjen hadde så alvorlige mangler at de ble trukket tilbake.  

– Grunnen kan være alt fra plagiat til feil datagrunnlag. Men det er viktig å huske at svært mange av disse sakene ikke er gjort med vond vilje, men skyldes menneskelige feil, påpeker Zalm.   

Etterlyser opplæring og kunnskap 

«Så åpent som mulig, så lukket som nødvendig» er Forskningsrådets policy for åpne data. Det er flere dilemmaer knyttet til å gjøre forskningen mer åpen. I en del tilfeller kommer hensyn knyttet til sikkerhet, personvern, opphavsrett, immaterielle rettigheter og forretningshemmeligheter i konflikt med målsetningen om økt åpenhet, heter det i policyen. 

PLOS-redaktøren har for eksempel selv erfart at det ikke alltid er praktisk mulig å publisere alle data.  

– Jeg tok en doktorgrad i strukturell biologi der jeg kunne lage 300 000 filer på en dag for kun ett enkelt protein, forteller hun.  

Et annet spørsmål er om data kan misbrukes. Da Zalm jobbet i et tidsskrift om pediatri, var en del av jobben hennes å sikre at bildene ikke kunne brukes i barnepornografi. 

Overgangen til digitale data og bilder har også ført til et langt større omfang og at det er lettere å forfalske.  

– I dag er det en slags kappløp mellom eksperter på å forfalske bilder og data og de som lager software som brukes for å avsløre dette. Hvem ligger i forkant?  

Zalm mener publiseringssystemet kan gjøre mye ved å stille krav, slik PLOS gjør. Men de kan ikke ta opp kampen alene. For at forskningen skal bli mer etterprøvbar, transparent og troverdig trengs det en reform av hele det akademiske systemet.  

– Mye av problemet kommer ikke av at forskere fusker med overlegg, men av feil og misforståelser. Når det gjelder publiseringsetikk og data, så trengs det mer opplæring og kunnskap – både av fagfeller, forskere, forskningsinstitusjoner og de som finansierer forskning.  

Ufrivillig sovemedisin?  

Vitenskapelige tidsskrift stiller i liten grad krav om at forskningsresultatene skal være reproduserbare, mener Odd Erik Gundersen, førsteamanuensis ved Institutt for datateknologi og informatikk ved NTNU. Samtidig bidrar insentivsystemet til at forskere får mer igjen for å publisere mye, enn for å sikre at resultatene er sanne, og at de kan reproduseres, ifølge Gundersen.  
 
Han er usikker på hvor stort engasjementet er når det kommer til stykket, selv om de fleste sikkert vil nikke og si at «selvfølgelig er det viktig at forskningen er reproduserbar».  
 
– Jeg holdt nettopp et foredrag ved Cambridge om forskningsmetode. En forsker sa til meg med et smil: «Da jeg la meg i går, var jeg ikke trøtt, men det var ikke noe stress, fordi da jeg tenkte på reproduserbarhet, sovnet jeg med en gang.» 
 
For noen år tilbake skrev Gundersen en kronikk i Morgenbladet om temaet. 
 
– Det var merkelig stille etter kronikken. Når det kommer til stykket i en hektisk forskerhverdag, er jobben med å offentliggjøre data og koder omstendelig og tidkrevende, for ikke å si kjedelig.  

AI har en kultur for deling  

Kanskje er det en fare for at også publikasjoner som stiller krav om dette, kommer i kategorien «kjedelig». 
 
– Om et tidsskrift stiller krav til publisering av data og kode, kan det hende at forskeren heller går til annet tidsskrift fordi det er mindre jobb å publisere der. Dette gjør at ingen tidsskrifter stiller krav om dette. Jeg mener det er finansieringsinstitusjonene som sitter med nøkkelen til å stille krav om reproduserbar forskning, konstaterer Gundersen.  
 
På hans fagområde, som er AI (kunstig intelligens), er det imidlertid en kultur for deling. Det første internettidsskriftet med åpen tilgang innenfor AI, The Journal of Artificial Intelligence Research (JAIR), kom allerede for 30 år siden.  
 
– Kulturen for deling støttes også av de store firmaene, fra Microsoft til Google. Det har ført til at utvikling av AI har gått fort de siste årene. Alle ser at de er tjent med det.  
 
Også Gundersen kommer inn på noen av skjærene i sjøen når det gjelder åpenhet om data og kode. Det trengs gode systemer for hvor de skal lagres. Hva gjør for eksempel en forsker som har data på en server på nettsiden sin på NTNU, men som får seg jobb ved UiO? Kan vi sikre at de lagres for evig? Hjelper det at koden er publisert, når man kanskje ikke kan få kjørt den på nye datamaskiner? 

Tidsskrift innfører sjekkliste 

Gundersen sitter selv i redaksjonen for tidsskriftet JAIR, og forteller at fra i vår skal de innføre flere nye grep for å bedre publiseringsetikken. Det første er at artikkelforfatterne må gå gjennom en sjekkliste hvor de blant annet svarer på spørsmål om metode. Fagfellene får også sjekklisten utlevert for å kontrollere at det er utført.  
 
Når artikkelen er akseptert, utgis en form for stempel som belønning i tillegg. 
 
– Deling av data gir ett stempel. Har en delt kode, får en nok et stempel. Et tredje stempel får en om noen andre har sjekket data og funnet ut at forskningen er reproduserbar. De som har reprodusert resultatene, blir oppfordret til å skrive en artikkel om det, forklarer Gundersen.  
 
Han beskriver tiltakene som ganske revolusjonerende. Men det er ikke gjort over natta. 
 
– Det trengs mange endringer i publiseringssystemet. Mitt råd er å ikke gjøre alt på en gang. Folk generelt, og dermed også forskere, liker ikke endring, så man må ta det gradvis.