Gå till huvudinnehållet

Forskningsdata: Dokumentation och metadata

Guiden är avsedd att stöda forskare vid Åbo Akademi med frågor om forskningsdata.

Varför behövs dokumentation och metadata?

Dokumentation handlar om att beskriva och dokumentera vad som händer med forskningsdata under forskningsprocessen. Forskaren är expert på sina egna data/material och är därför den som bäst kan dokumentera och skapa metadata. Data utan dokumentation är meningslöst, eftersom det är omöjligt att förstå och återanvända datan. Om det känns svårt att greppa vilken dokumentation som behövs - föreställ dig vilken information en utomstående behöver för att förstå vad dina data handlar om och hur de kan användas.

Forskaren dokumenterar forskningen på flera nivåer: 1) på projektnivå (t.ex. bakgrundsinformation, metoder), 2) på filnivå (relationen mellan filer), 3) på variabelnivå (beskrivning av variabler och hur de kommit till). FAIR-principerna innebär att data är sökbaratillgängligakompatibla (med andra data) och återanvändbara, vilket ska prägla hela forskningsprocessen med reproducerbarhet som kriterium för hur forskningsprocessen och data dokumenteras och vilka data som öppnas på längre sikt.

Exempel på dokumentation:

  • kodböcker/-schema, labböcker, fältdagböcker, anteckningar,
  • beskrivningar av inställningar och kalibrering av instrument och apparater,
  • beskrivningar av metoder,
  • readme-fil: en .txt fil som beskriver datats uppkomst och innehåll,
  • forskningsprojektets administrativa dokument, t.ex. forskningsplaner, datahanteringsplaner, avtal och överenskommelser, forskningstillstånd vetenskapliga publikationer, tillstånd för data-användning, licenser etc.

 

Generellt kan man säga att hurdan dokumentation som behövs varierar inom olika forskningsområden. Därtill påverkar också projektet och dess behov.

Fördelar med god dokumentation:

  • Dokumentation är viktigt både för forskaren själv och för andra - genom dokumentation gör man forskningsprojektets och forskningsdatats innehåll förståeligt för både en själv och för andra. Utan dokumentation är det svårt att i efterhand komma ihåg vad, när och hur saker gjorts.
  • God dokumentation minimerar risken för felaktiga tolkningar av datat och andra missförstånd.
  • Dokumentationen är också central för arkiveringen och när man delar/öppnar forskningsdata vid projektets slut - om man dokumenterar noggrant från början är det också smidigare att slutligen publicera/öppna datasetet.
  • Utförlig dokumentation är nödvändig för validering av forskningsresultat och eventuell upprepning/replikering av studien.

 

Metadata betyder "data om data" och handlar om information som behövs för att förstå och tolka datat och hur det kan användas. Information om datats ursprung, upphovspersoner, tid, plats, metoder samt ämnesord vilka beskriver innehållet är exempel på metadata. Metadata är med andra ord en central del av dokumentationen. En central aspekt av FAIR-principerna är att metadatat är strukturerat och maskinläsbart, vilket innebär bl.a. att datat kan överföras mellan olika datatjänster.

CHECKLISTA: Är din forskning reproducerbar?

1. Styr datahanteringsplanen (DMP) arbetet under hela livscykeln för data så att hela datahanteringsprocessen är transparent och tillräckligt dokumenterad?
2. Hur har transparens och användningsbegränsningar för data beaktats under hela processen?
3. Utnyttjas i metadata och själva data gemensam praxis, till exempel standarder och ordlistor?
4. Har forskningsmaterialets livscykel dokumenterats systematiskt och motsvarar beskrivningen verkligheten? Har så många skeden av datahanteringen som möjligt automatiserats och har koden sparats? Finns dokumentationen (den tekniska dokumentationen) av de program och inställningar som har använts tillgänglig?
5. Har data och annan output versionerats?
6. Har data och dokumentationen av dem sparats i ett hänvisningsbart format (permanenta identifierare och metadata)?
Genom att ombesörja reproducerbarheten genomförs FAIR-principerna naturligt som en del av forskningsprocessen och varken data eller dokumentation behöver skapas separat i publiceringsskedet av artikeln eller ifrågavarande data. 

Lehtisalo, A. et al. (2023). Improve the quality and impact of your research through data management - A guide for making your data FAIR. Zenodo. https://doi.org/10.5281/zenodo.8012377

Guider för dokumentation

CSC - data documentation https://research.csc.fi/metadata-and-documentation

DCC - disciplinary metadata https://www.dcc.ac.uk/guidance/standards/metadata

FSD guide om dokumentation och metadata https://www.fsd.tuni.fi/en/services/data-management-guidelines/data-description-and-metadata/#metadata-standards

Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable - Guide for data documentation (Version 1.2). Zenodo. http://doi.org/10.5281/zenodo.1914401

Improve the quality and impact of your research through data management - A guide for making your data FAIR - AVOTT working group (2023)

 

Organisera dina datafiler

Det lönar sig att ha ett tydligt system för hur man håller ordning på sina filer. Är du trött på att inte hitta vad du letar efter? Några saker att tänka på då man organiserar sina datafiler:

  • Skapa ett enkelt, konsekvent och meningsfullt system för filnamn redan när projektet börjar. Använd inte samma filnamn mer än en gång.
  • Skapa en logisk mappstruktur för att göra det enklare att hitta och söka filer, vid behov också hierarkier (dvs. huvudmappar och undermappar).
  • Tagga filer för att enklare hitta dem. En fil kan finnas bara i en mapp, men istället ha många taggar.
  • Ha versionskontroll för att veta vilka filer är äldre och vilka nyare, antingen manuellt eller genom att använda mjukvara för automatisk versionskontroll (t.ex. i GitLab). Manuell versionskontroll fungerar bra i projekt där det inte skapas väldigt stora mängder data. Indikera versionen i slutet av filnamnet, t.ex.: V02-03
  • Skriv en readme-fil där all information för att tolka datafilerna finns, t.ex. datats uppkomst, innehåll, namnkonventioner. Lägg readme-filen på en logisk plats i mappen tillsammans med andra data.