Datatilstander
En datatilstand er et resultat av at et datasett har gått gjennom gitte operasjoner og prosesser (Standardutvalget 2023, 5). Denne siden er ment som en kort innføring i de forskjellige datatilstandene. Siden er basert på det interne dokumentet Datatilstander SSB - 2. utgave. Definisjonene er direkte utdrag fra dette dokumentet. Se interndokumentet for en mer grundig gjennomgang av datatilstander i SSB.
I SSB skiller vi mellom fem datatilstander:
- Kildedata
- Inndata
- Klargjorte data
- Statistikk
- Utdata
Alle datatilstander er obligatoriske bortsett fra inndata. Figur 1 viser hvordan de forskjellige datatilstandene henger sammen.
Kildedata
Kildedata er data lagret slik de ble levert til SSB fra dataeier. Eksempler på kildedata er: grunndata, transaksjonsdata, administrative data, statistiske data og aggregerte data og rapporter (Standardutvalget 2023, 7). Kildedata lagres i bøtten ssb-<teamnavn>-data-kilde-prod
. Les mer om bøtter her og lagringsstandarder her.
Inndata
Inndata er kildedata som er transformert til SSBs standard lagringsformat (Standardutvalget 2023, 8). Denne transformeringer inkluderer blant annet at dataene skal benytte UTF-8 tegnsett. Les mer om SSBs standard lagringsformat her. Inndata kan også være andre statistikkers glargjorte data og/eller statistikkdata (Standardutvalget 2023, 8). Inndata er ikke en obligatorisk datatilstand. Inndata lagres i bøtten ssb-<teamnavn>-data-produkt-prod
.
Klargjorte data
Klargjorte data er inndata hvor:
- variablene er beregnet gjennom utregninger og koblinger mellom datasett
- nøyaktigheten er forbedret
- for eksempel som resultat av editering eller imputering
- metadata med variabeldefinisjoner er lagt til.
Enhver endring som er gjort skal være sporbare og dokumentert slik at statistikkene skal være etterprøvbare. Klargjorte date er som regel ikke aggregerte - med mindre dataen vi mottar er aggregert. Med andre ord inneholder klargjorte data oftest enkeltobservasjoner - i likhet med kildedata og inndata (Standardutvalget 2023, 9). Klargjorte data lagres i bøtten ssb-<teamnavn>-data-produkt-prod
.
Statistikk
Statistikk er “Tallfestede opplysninger om en gruppe eller et fenomen, og som kommer frem ved en sammenstilling og bearbeidelse av opplysninger om de enkelte enhetene i gruppen eller et utvalg av disse enhetene, eller ved systematisk observasjon av fenomenet” ifølge statistikkloven § 3a (Standardutvalget 2023, 10). Statistikk lagres i bøtten ssb-<teamnavn>-data-produkt-prod
.
Statistikk er ofte aggregerte data eller estimerte størrelser. Vi skiller mellom ujustert statistikk og justert statistikk. Indekser og sesongjusterte tall er eksempler på justert statistikk (Standardutvalget 2023, 10).
Statistikk kan være inndata til andre statistikker, og kan dermed inneholde konfidensielle og detaljerte data som ikke publiseres.
Utdata
Utdata er statistikk der kravene til konfidensialtet er ivaretatt. Dette er datatilstanden som publiseres. Eksempler inkluderer: statistikkbanktabeller, tabelloppdrag og internasjonal rapportering (Standardutvalget 2023, 11). Utdata lagres i bøtten ssb-<teamnavn>-data-produkt-produkt
.
Metadata for datatilstandene
Det er forskjellige forventinger til metadata for de ulike datatilstandene. Forskjellene er skildret underdisse punktene:
Kildedata
- Informasjon på datasettnivå som dataeier, området dataene omhandler og tidsinformasjon
- Metadata om enkeltvariabler er begrenset til informasjonen dataeier selv avleverer.
Inndata
- I utgangspunktet samme som kildedata
Klargjorte data
- Variabeldefinisjoner - beskrivelse av hver enkelt variabel og hvordan den er beregnet
- Nøyaktighetsforbedrende tiltak som er utført
Statistikk
- Variabeldefinisjoner
- Hvilke metoder og programmer/kode som er benyttet for å produsere statistikken
Utdata
- I utgangspunktet samme som for statistikk