Datadoc

Sist endret

January 20, 2025

Datadoc er SSBs system for dokumentasjon av datasett på Dapla. Hensikten er at alle datasett i de obligatoriske datatilstandene (klargjorte data, statistikk og utdata) skal dokumenteres ett sted, og informasjonen skal knyttes tett til tilhørende datasett. Den obligatoriske datatilstanden kildedata skal også dokumenters i Datadoc, men her vil det kreves mindre detaljert informasjon enn for de tre andre tilstandene. Kravene til dokumentasjon er større for klargjorte data, statistikk og utdata siden dette er datatilstander som skal kunne deles med andre1.

I Datadoc skal både informasjon om alle kolonner, og informasjon om datasettet som helhet, dokumenteres. Informasjon om datasettet kan f.eks. være en beskrivelse av hva datasettet inneholder, hvilket Dapla-team som eier det, om det inneholder personopplysninger, og om det er bruksrestriksjoner knyttet til dataene. I tillegg vil en del felter bli maskingenerert, f.eks. identifikator, filsti og hvilke datoer datasettet inneholder data fra og til. Hele modellen for datasett finnes her: DataDoc - Krav til dokumentasjon av datasett på Dapla - Metadata på DAPLA - Confluence.

Informasjon om enkeltkolonner (ofte omtalt som variabelforekomster) i datasettet skal også dokumenteres. Denne informasjonen skal bl.a. inneholde en beskrivelse av variabelen. Dette skal primært gjøres ved at en lenker til tilhørende variabeldefinisjon i Vardef. I tillegg til beskrivelsen, skal bl.a. måleenhet (hvis det er en kvantitativ variabel), datatype og (dersom variabelen er en personopplysning) om verdiene er pseudonymisert, dokumenteres. Hele modellen for variabelforekomster finne her: Variabelforekomst - Metadata på DAPLA - Confluence.

Figur 1 viser et datasett der en av variabelforekomstene er sivst. Den er lenket opp til definisjonen av sivilstand i Vardef, som igjen er lenket opp til kodeverket som beskriver kategoriene i «Standard for sivilstand» i Klass.

Figur som viser at Datadoc-systemet dokumenterer både kolonner og datasett.
Figur 1: Datadoc dokumenterer både kolonner og datasettet som helhet.

Fotnoter

  1. Utdata er åpne data, mens klargjorte data og statistikkdata kan deles med brukere som har rett på tilgang.↩︎