Metadata
Metadata er informasjonen som trengs for å produsere, finne, forstå og gjenbruke data. For å bruke et datasett riktig må vi forstå hva det inneholder. Vi må vite hva de ulike variablene representerer, for eksempel om variabelen inntekt i datasett A er den samme som inntekt i datasett B og derfor kan sammenliknes. Vi trenger også innsikt i hva kodene i datasettet betyr, som for eksempel hva sivilstandskode 2 representerer. I tillegg er det viktig å vite om datasettet inneholder personopplysninger, slik at vi kan oppfylle krav fra Datatilsynet.
Alt dette er eksempler på metadata som er tett knyttet til selve dataene. I tillegg har SSB mange andre typer metadata, som kvalitetsindikatorer og prosessbeskrivelser. Her velger vi imidlertid å fokusere på de metadataene som er nødvendige for å kunne bruke et datasett riktig.
SSB har i flere år hatt systemer for å dokumentere «datanære» metadata. Vardok dokumenterer variabler, som definisjoner og eierseksjoner. Klass håndterer kodeverk, inkludert klassifikasjoner og kodelister. Datadok fokuserer på dokumentasjon av datasett, for eksempel variabler, variabeltyper og antall desimaler.
SSB valgte å dokumentere metadata i flere separate systemer, både fordi andre statistikkbyråer hadde erfart at ett samlet system ble for stort og komplekst, og fordi SSB allerede hadde en eksisterende løsning, Datadok, som skulle videreføres. I stedet for å lage ett enkelt system, ble strategien å utvikle flere systemer som skulle fungere sammen som en helhet. Dette førte til integrasjoner mellom systemene, som for eksempel en kobling mellom Vardok og Klass. En variabel som Næring i Vardok har en lenke til Standard for næringsgruppering i Klass. I tillegg er Vardok koblet til Statistikkbanken og MetaDB (NUDB og FD-Trygd) for utveksling av variabeldefinisjoner. Datadok er også koblet til Vardok, slik at variablene i Datadok kan referere til tilhørende variabeldefinisjoner fra Vardok.
Verken Datadok eller Vardok kan brukes på Dapla. Derfor er en ny løsning for dokumentasjon av datasett, Datadoc, allerede implementert på Dapla. En ny løsning for dokumentasjon av variabeldefinisjoner, Vardef, er under utvikling. Når Vardef er ferdigstilt, skal variabler fra Vardok flyttes dit, og alle fremtidige oppdateringer vil skje i Vardef. Klass kan derimot brukes fra Dapla, og det er derfor ennå ikke besluttet om og når denne løsningen skal flyttes eller eventuelt implementeres på nytt på Dapla.
På Dapla skal det etter hvert også implementeres en datakatalog som skal være en portal inn til metadataløsningene. Via datakatalogen skal en kunne søke i alle disse metadataene.