Datamodell

Sist endret

January 13, 2026

I dette kapitlet beskrives informasjonselementene i Datadoc. Siden noen gjelder for datasett og andre gjelder for variabler, så er kapitlet delt inn etter disse.

For hvert informasjonselement angis det om informasjonen er obligatorisk✅ for gitte datatilstander. Siden inndata ikke er en obligatorisk datatilstand, og kildedata ikke er mulig å dokumentere ennå, så angis de ikke. Men hvis man lagrer inndata i en statistikkproduksjon, så er de samme feltene obligatorisk som for klargjorte data.

Det angis også hva det internasjonale🌐 navnet er, det er dette navnet som benyttes i Datadoc-filene som genereres. Noen informasjonselementer er kun relevant for noen typer av data, og de er derfor kun obligatorisk hvis man har denne typen data, f.eks. er bruksrestriksjoner kun obligatorisk å fylle ut dersom datasettet har slike, og “måleenhet” kun obligatorisk for kvantitative¹ variabler. Dette angis med ⚠️. Felter som er valgfrie, angis ved (valgfritt).

✅ = obligatorisk, ⚠️ = obligatorisk hvis relevant, 🌐 = internasjonalt

Datasett

Navn

🌐 name

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir navnet til datasettet. Navnet skal være forståelig for mennesker (ikke kun forkortelser) slik at det er søkbart. Navnet skal fylles ut på bokmål eller nynorsk. Det er valgfritt om en også vil fylle ut på den andre norske målformen og engelsk.

Eksempler

Eksempel 1:

Levekårsundersøkelsen

Beskrivelse

🌐 description

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Beskriver kort innholdet i datasettet.

Eksempler

Eksempel 1:

Inneholder data om bruk av helsetjenester (Levekårsundersøkelsen).

Verdivurdering

🌐 assessment

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk basert på datasettets datatilstand, og informasjon om datatilstand hentes fra filstien (se Navnestandarden) til den dokumenterte filen.

Tabell 1 viser sammenhengen mellom datatilstander og verdivurdering.

Tabell 1: Sammenheng mellom datatilstand og verdivurdering

Datatilstand	Verdivurdering
Kildedata	Sensitiv
Inndata	Skjermet
Klargjorte data	Skjermet
Statistikkdata	Skjermet
Utdata	Åpen

Bruksrestriksjoner

🌐 use_restrictions

klargjorte data ⚠️ | statistikkdata ⚠️

Angis om datasettet har bruksrestriksjoner. Et datasett kan ha ingen, én eller flere bruksrestriksjoner. Dersom datasettet ikke har brukrestriksjoner så kan feltet stå tomt, og i json-utskriften vil verdien i dette feltet da vises som null.

En kan velge mellom tre typer bruksrestriksjoner. Dersom bruksrestriksjonen har en dato, f.eks. for når en sletting skal utføres, skal denne fylles inn i Dato for restriksjon.

Bruksrestriksjonstype

Sletting/anonymisering

🌐 DELETION_ANONYMIZATION

Datasettet er hentet inn til SSB med forutsetning om at opplysningene skal slettes eller anonymiseres innen et bestemt tidspunkt. F.eks. har samtykkebaserte surveydata alltid krav om anonymisering eller sletting innen et gitt tidspunkt.

Behandlingsbegrensninger

🌐 PROCESS_LIMITATIONS

Datasettet er hentet inn til SSB med forutsetning om at opplysningene kun prosesseres på en forhåndsdefinert og begrenset måte. Et datasett kan f.eks. være hentet inn med begrensninger knyttet til hvilke andre data den kan kobles sammen med.

Sekundærbruksrestriksjoner

🌐 SECONDARY_USE_RESTRICTIONS

Datasettet er hentet inn under forutsetning av at opplysningene utelukkende benyttes av SSB til utvikling, utarbeiding eller formidling av offisiell statistikk. SSB kan ikke gi tilgang til opplysningene for utarbeiding av statistiske resultater og analyser, herunder forskning, jf. statikkloven § 14..

Dato for restriksjon

🌐 use_restriction_date

Angis kun dersom bruksrestriksjonen har en “tiltaksdato”. En tiltaksdato kan f.eks. være at et datasett skal slettes eller anonymiseres på en gitt dato. Noen datasett med Bruksrestriksjon vil ikke ha en slik dato, f.eks. vil en behandlingsbegrensning normalt være permanent/tidsuavhengig, og da skal ikke dette feltet fylles ut. I json-utskriften vil verdien i dette feltet da vises som null.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Eksempler

Eksempel 1:

2024-12-31

Datatilstand

🌐 dataset_state

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk fra filstien hvis datasettet som dokumenteres er lagret iht Navnestandarden, men kan overstyres. Datasettets datatilstand er en av følgende:

KILDEDATA

🌐 SOURCE_DATA

INNDATA

🌐 INPUT_DATA

KLARGJORTE DATA

🌐 PROCESSED_DATA

STATISTIKK

🌐 STATISTICS

UTDATA

🌐 OUTPUT_DATA

Status

🌐 dataset_status

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir hvor metadataene er i livssyklusen. Følgende kategorier kan velges:

Utkast

🌐 DRAFT

Arbeid med data og metadata pågår, dvs. ikke delt internt eller eksternt.

Intern

🌐 INTERNAL

Metadata er godkjent for intern deling og bruk. Data er klare for intern bruk, men skjermede og sensitive data kan kun brukes av/deles med interne med tjenstlig behov.

Ekstern

🌐 EXTERNAL

Metadata er godkjent for deling og bruk både intern og eksternt. Data er klare for intern og ekstern bruk, men skjermede og sensitive data kan kun brukes av/deles med interne med tjenstlig behov. Kun data med datatilstanden “utdata” (verdivurdering=åpen), kan deles med alle eksterne. Noen eksterne, f.eks. forskere, kan imidlertid få tilgang til (utlån av) skjermede/sensitive data etter søknad og godkjenning.

Utgått

🌐 DEPRECATED

Utgått, avsluttet eller erstattet av noe annet.

Populasjon

🌐 population_description

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir populasjonen som datasettet dekker(fritekst).

Eksempler

Eksempel 1:

Alle bosatte personer

Eksempel 2:

Alle studenter ved universitet og høgskole

Eksempel 3:

Alle aktive bedrifter innenfor bergverksdrift, olje- og gassutvinning, industri og kraftforsyning

Eksempel 4:

Alle museer som er åpne for publikum, og som har minst et fast lønnet årsverk

Eksempel 5:

Alle personer bosatt i Norge som har hatt ett eller flere sykehusopphold eller behandling

Eksempel 6:

Alle verdipapirfond som har konsesjon fra Finanstilsynet

Dersom noen av variablene i datasettet har en annen populasjon, er dette dokumentert under Populasjon for den aktuelle variabelen.

Versjon

🌐 version

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk dersom datasettet følger navnestandarden. Dersom datasettet ikke følger navnestandarden (det er f.eks. ikke et krav at kildedata skal gjøre det), settes versjonsnummeret manuelt. Les mer om versjoner i Dapla-manualen.

Versjonsbeskrivelse

🌐 version_description

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Kort beskrivelse av årsaken til at en ny versjon ble laget. For versjon 1 kan en bare skrive Opprinnelig versjon.

Inneholder data f.o.m.

🌐 contains_data_from

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk dersom datasettet følger navnestandarden. Dersom datasettet ikke følger navnestandarden (det er f.eks. ikke et krav at kildedata skal gjøre det), settes denne datoen manuelt. Dersom variablene i datasettet inneholder data med ulike startdatoer, settes den eldste datoen her. Under variabler-fanen kan en sette korrekt Inneholder data f.o.m. for variabler som avviker fra datoen som settes her.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Inneholder data t.o.m.

🌐 contains_data_until

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk dersom datasettet følger navnestandarden. Dersom datasettet ikke følger navnestandarden (det er f.eks. ikke et krav at kildedata skal gjøre det), settes denne datoen manuelt. Dersom variablene i datasettet inneholder data med ulike sluttdatoer, settes den nyeste datoen her. Under variabler-fanen kan en sette korrekt «Inneholder data t.o.m.» for variabler som avviker fra datoen som settes her.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Statistikkområdet

🌐 subject_field

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir det primære statistikkområdet som datasettet tilhører.

Gyldige verdier er basert på følgende Klass-kodeliste.

Nøkkelord

🌐 keyword

klargjorte data (valgfritt) | statistikkdata (valgfritt) | utdata (valgfritt)

Beskriver datasettet vha. nøkkelord. Disse kan brukes i søk. Nøkkelordene må legges inn som en kommaseparert streng.

Eksempler

Eksempel 1:

befolkning, skatt, arbeidsledighet

Geografisk dekningsområde

🌐 spatial_coverage_description

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Oppgi datasettets geografiske dekningsområde. Norge er satt som standard.

Variabler

Navn

🌐 name

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir navnet til variabelen. Navnet skal være forståelig for mennesker (ikke kortnavn/teknisk navn) slik at det er søkbart. Navnet skal fylles ut på bokmål eller nynorsk.

Et eksempel på navn er Fødselsnummer. Det tilhørende kortnavnet (navnet i datasettet) vil være fnr.

De fleste variabler skal dokumenters i Vardef, og dermed kunne pekes til fra Datadoc-editor. Men hvis datasettet inneholder noen variabler som kun brukes i dette datasettet, og dermed ikke skal gjenbrukes, trenger de ikke å dokumenteres i Vardef . Det kan f.eks. dreie seg om variabler som brukes i en spesiell beregning eller kontroll. Disse dokumenteres da i Datadoc-editor. Navnet skal dokumenteres i dette feltet, mens definisjonen og eventuelt tilhørende kodeverk skal dokumenteres hhv. i feltet Kommentar og Kodeverkets URI.

Sammenkobling med Vardef

Når Vardef kommer i produksjon må Navn-feltet bare fylles ut dersom Definisjons-URI-feltet ikke er utfylt. Dersom det er utfylt, vil navnefeltet automatisk fylles med navnet til Vardef-variabelen som det lenkes til. Det er også mulig å endre Vardef-navnet i Datadoc-editor dersom det er relevant.

Variabeldefinisjon ID

🌐 definition_uri

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angir lenken til relevant variabel(definisjon) i Vardef. For variabler som ikke er definert i Vardef skal definisjonen til variabelen dokumenteres under feltet Kommentar i Datadoc.

Er personopplysning

🌐 is_personal_data

klargjorte data ✅

Angir om variabelen er en personopplysning eller ikke. Personopplysninger er alle opplysninger som entydig kan identifisere en fysisk person (f.eks. fødselsnummer, ulike adresser og bankkontonummer). Se flere eksempler på personopplysninger i liste laget av PAPIS-prosjektet:

PAPIS - Variabelliste.docx

Næringsdata og enkeltpersonforetak (ENK) blir ikke regnet som personopplysninger.

Enhetstype

🌐 unit_type

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir enhetstypen («objektet») som variabelen inneholder informasjon om. Eksempler på enhetstyper er «person», «foretak» og «bruksenhet».

I noen tilfeller vil dataene være aggregerte allerede når de kommer til SSB. Da vil det ikke være logisk å snakke om enhetstyper, og en kan velge kategorien «aggregert» som verdi i Enhetstype-feltet. Denne kategorien vil også ofte være det aktuelle valget for datatilstandene statistikk og utdata da disse ofte vil bestå av aggregerte data. Et unntak her vil være Kostra, som også har aggregerte data, men der disse er aggregert på kommune- eller fylkes nivå, og det vil da være naturlig å bruke enhetstypen «kommune(forvaltning)» eller «fylke(forvaltning)».

Gyldige verdier er basert på følgende kodeliste i Klass.

Måleenhet

🌐 measurement_unit

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angir måleenhet dersom variabelen er kvantitativ², f.eks. kroner eller tonn. Det er kun kvantitative variabler med variabelrolle «målevariabel» som skal ha måleenhet.

Gyldige verdier er basert på følgende kodeliste i Klass.

Multiplikasjonsfaktor

🌐 multiplication_factor

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angir multiplikasjonsfaktor der denne brukes sammen med måleenheten, f.eks. hvis det er store tall i datasettet. En kan f.eks. velge multiplikasjonsfaktor 1000, og måleenhet «kroner», slik at verdiene vises i 1000 kroner.

Variabelens rolle

🌐 variable_role

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir variabelens rolle i datasettet. Gyldige verdier/roller er:

IDENTIFIKATOR

🌐 IDENTIFIER

Identifiserer de ulike enhetene i et datasett, f.eks. fødselsnummer som identifiserer personer og organisasjonsnummer som identifiserer foretak.

MÅLEVARIABEL

🌐 MEASURE

Beskriver det vi måler, dvs. egenskaper som sivilstand eller omsetning.

STARTTID

🌐 START_TIME

Beskriver startdato for hendelser som har et forløp, eller måletidspunkt for tverrsnittdata.

STOPPTID

🌐 STOP_TIME

Beskriver stoppdato for hendelser som har et forløp.

ATTRIBUTT

🌐 ATTRIBUTE

Benyttes dersom en ønsker å utvide datasettet med informasjon knyttet til gitte variabler, f.eks. vedrørende datakvalitet eller editering.

Kodeverk ID

🌐 classification_uri

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angir lenke (URL) til gyldig kodeverk (klassifikasjon eller kodeliste) i Klass. Dette feltet vil sjelden benyttes siden variabelen i all hovedsak vil knyttes til tilhørende kodeverk via relevant variabeldefinisjon i Vardef. Unntaksvis kan den imidlertid knyttes direkte til Klass via dette feltet i tilfeller der variabelen ikke defineres i Vardef (se nærmere info under feltet «Navn»). Via dette feltet kan en også lenke til en variant av et kodeverk dersom en ønsker å spesifisere kodeverket som er knyttet til variabeldefinisjonen i Vardef (eksempelvis variabelen “næring” som i Vardef er knyttet til Standard for næringsgruppering (SN). For variabelen i datasettet kan en da f.eks. lenke til en variant av SN som kun inkluderer næringene som er aktuelle for egen statistikk, hvis dette er ønskelig).

Kommentar

🌐 comment

klargjorte data (valgfritt) | statistikkdata (valgfritt) | utdata (valgfritt)

Beskriver to ulike situasjoner.

Dette feltet brukes vanligvis til å legge inn ytterligere informasjon om en variabel, f.eks. dersom en ønsker å utdype definisjonen i Vardef-variabelen en har lenket til.
Feltet skal brukes i de sjeldne tilfellene der en variabel ikke må dokumenteres i Vardef (da er feltet ikke valgfritt). En kan nemlig unnlate å dokumentere en variabel i Vardef dersom den kun brukes i ett dataset (se mer info under Navn). I et slikt tilfelle må variabelen defineres i Kommentar-feltet. (NB variabler som kun brukes i ett datasett, kan godt dokumenters i Vardef i stedet for i dette kommentar-feltet dersom en ønsker det).

Datakilde

🌐 data_source

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir kilden til dataene (på etats-/organisasjonsnivå). Denne velges fra menyen.

Gyldige verdier er basert på følgende Klass kodeliste.

Temporalitetstype

🌐 temporality_type

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir tidsdimensjonen i variabelen. Følgende verdier er tillatt:

Fast

🌐 FIXED

Data med verdier som ikke endres over tid, f.eks. fødselsdato.

Tverrsnitt

🌐 STATUS

«Tverrsnitt» er data som er målt på et bestemt tidspunkt.

Akkumulert

🌐 ACCUMULATED

er data som er samlet over en viss tidsperiode, f.eks. inntekt gjennom et år.

Hendelse/forløp

🌐 EVENT

«Hendelse/forløp» registrerer tidspunkt og tidsperiode for ulike hendelser/tilstander, f.eks. (skifte av) bosted.

Populasjon

🌐 population_description

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angis vanligvis på datasettnivå, men dersom datasettet består av variabler med ulike populasjoner, kan populasjonen dokumenteres på variabelnivå i dette feltet.

Eksempler

Eksempel 1:

Alle (bosatte) personer i Norge per 31.12.2024

Eksempel 2:

Alle foretak i Oslo per 01.03.2025

Format

🌐 format

klargjorte data (valgfritt) | statistikkdata (valgfritt) | utdata (valgfritt)

Angir en ytterligere presisering av datatype i tilfellene der det er relevant. Kan inneholde verdienes format (fysisk format eller regulært uttrykk) i maskinlesbar form i forbindelse med validering, f.eks. ISO 8601 som datoformat.

Inneholder data f.o.m.

🌐 contains_data_from

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angis vanligvis på datasettenivå, men dersom variablene i datasettet inneholder data med ulike startdatoer, kan startdato dokumenteres på variabelnivå i dette feltet.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Inneholder data t.o.m.

🌐 contains_data_until

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angis vanligvis på datasettenivå, men dersom variablene i datasettet inneholder data med ulike sluttdatoer, kan sluttdato dokumenteres på variabelnivå i dette feltet.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Datatype

🌐 data_type

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Angir variabelens Datadoc-datatype. Utledes automatisk basert på PyArrow-datatype når Parquet-filen blir lest inn av Datadoc. Det er ikke tillat å endre denne verdien manuelt dersom det må samsvare med det fysiske datasettet. Følgende er verdier er tillat:

TEKST

🌐 STRING

Datadoc-datatype STRING utledes automatisk dersom variabelen har en av de følgende PyArrow-datatypene: | string | large_string | bytes |

HELTALL

🌐 INTEGER

Datadoc-datatype INTEGER utledes automatisk dersom variabelen har en av de følgende PyArrow-datatypene: | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64 |

DESIMALTALL

🌐 FLOAT

Datadoc-datatype FLOAT utledes automatisk dersom variabelen har en av de følgende PyArrow-datatypene: | float16 | float32 | float64 |

DATOTID

🌐 DATETIME

BOOLSK

🌐 BOOLEAN

Datadoc-datatype BOOLEAN utledes automatisk dersom variabelen har følgende PyArrow-datatype: | bool |

Dataelementsti

🌐 data_element_path

klargjorte data ⚠️ | statistikkdata ⚠️ | utdata ⚠️

Angis kun for hierarkiske datasett (JSON) hvor det er nødvendig å oppgi sti til dataelementet. “dot-notasjon” (JsonPath- lignende syntaks) brukes til å peke til variabelen (dataelementet). Dette er en generisk/teknologinøytral måte å peke til elementer i både JSON, XML og andre hierarkiske datastrukturer.

Ugyldige verdier

🌐 invalid_value_description

klargjorte data (valgfritt) | statistikkdata (valgfritt) | utdata (valgfritt)

Beskriver ugyldige verdier som inngår i variabelen (fritekstfelt). Et eksempel kan være variabelen «organisasjonsnummer» hvis en vet at noen av verdiene knyttet til enpersonsforetak mangler et siffer i fødselsnummeret eller egentlig er passnummer.

Kortnavn

🌐 short_name

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk. Kortnavnet vil være det samme som navnet som brukes på variabelen i datasettet.

Id

🌐 id

klargjorte data ✅ | statistikkdata ✅ | utdata ✅

Utledes automatisk. Dette er en unik SSB-identifikator for variabelen, og denne maskingenereres av Datadoc.

Pseudonymiseringstidspunkt

🌐 pseudonymization_time

klargjorte data ⚠️

Angir tidspunkt for når variabelen ble pseudonymisert.

Dato må være på formatet YYYY-MM-DD iht ISO 8601 Date and time format.

Stabil identifikator type

🌐 stable_identifier_type

klargjorte data ⚠️

Angir om variabelen er transformert til en stabil identifikator før pseudonymisering, og hvilken identifikator som ble benyttet. F.eks. er en vanlig transformasjon i SSB at man konverterer fødselsnummer til SNR før pseudonymisering, og denne får verdien "FREG_SNR" i Datadoc.

Stabil identifikator versjon

🌐 stable_identifier_version

klargjorte data ⚠️

Angir hvilken versjon av stabil identifikator som variabelen ble transformert til før pseudonymisering. Versjonen angis som en dato med formatet YYYY-MM-DD. Verdien genereres automatisk ved pseudonymisering på Dapla, og kan legges inn manuelt i Datadoc-editor for de som har migrert filer fra vår tidligere plattform.

Krypteringsalgoritme

🌐 encryption_algorithm

klargjorte data ⚠️

Angir det tekniske navnet til krypteringsalgoritmen som ble benyttet for pseudonymisering. Algoritmene TINK-FPE eller TINK-DAEAD støttes på Dapla. Verdiene genereres vanligvis automatisk ved pseudonymisering eller gjennom Datadoc-editor.

Les mer om algoritmer som støttes på Dapla i denne artikkelen.

Krypteringsnøkkel referanse

🌐 encryption_key_reference

klargjorte data ⚠️

Angir navn eller referanse til krypteringsnøkkelen som er benyttet for pseudonymisering.

Krypteringsalgoritme-parametre

🌐 encryption_algorithm_parameters

klargjorte data ⚠️

Angir eventuelle krypteringsalgoritme-parametre som ble benyttet utover encryption_key_reference.

Fotnoter

Kvantitative variabler har verdier som er tall, i motsetning til kvalitative variabler som henter sine verdier fra en klassifikasjon eller kodeliste. Inntekt og alder er eksempler på kvantitative variabler.↩︎
Kvantitative variabler har verdier som er tall. Inntekt og Alder er eksempler på kvantitative variabler.↩︎