Velkommen

Denne manualen tar sikte på å gi SSB-ansatte mulighet til å ta i bruk Dapla uten hjelp fra eksperter. Boken er delt i syv kapitler som er kort skildret i denne innledningen, i tillegg til en appendiks, en blogg og eksempel-notebooks. Under hjelp-fanen øverst på nettsiden finner du blant annet siden FAQ hvor ofte stilte spørsmål besvares. I denne boken omtaler vi den gamle produksjonssonen, ofte kalt prodsonen, som bakke, og det nye skymiljøet Google Cloud som sky. Det er ikke helt presist men duger for formålene i denne boken.

Sett i gang på bakken!

Det er tilrettelagt for en treningsarena i bakkemiljøet (jupyter lab). Dette miljøet er nesten identisk med det som møter deg på Dapla, med unntak av at du her har tilgang til mange av de gamle systemene og mye mindre ‘hestekrefter’ i maskinene. Ideen er at SSB-ere ofte vil ønske å lære seg de nye verktøyene1 i kjente og kjære omgivelser først, og deretter flytte et ferdig skrevet produksjonsløp til Dapla.

Manualen er delt opp i syv kapitler: Første kapittel handler om Dapla-team. Å ha et team er en forutsetningen for å drive databehandling på platformen. Dermed er det et naturlig første steg å opprette et team.

I andre kapittel, data, forklares blant annet hvordan data leses, lagres og deles. Her tar vi for oss bruk av vår interne Python-pakke dapla-toolbelt, og forklarer hva det vil si at data lagres i bøtter.

Tredje kapittel, kode, tar utgangspunkt i at man skal starte å kode opp sin statistikkproduksjon eller kjøre eksisterende kode. Her dekkes temaer som versjonshåndtering på github og virtuellle miljøer i både Python og R. Verktøyet ssb-project er en viktig del av dette kapitlet.

Fjerde kapittel handler om standarder og beskriver de standardene vi må forholde oss til når vi driver statistikkproduksjon på dapla. Dette inkluderer versjonering av filer, mappestrukturer og filnavn.

I kapittel fem, metadata, kan du blant annet lære om Datadoc - et verktøy for å dokumentere datasett og variablene som utgjør datasettet.

I sjette kapittel kan du lære om Dapla Lab: vår utforsker og platform for å kjøre og skrive kode, og kommunisere med Google Cloud Platform. I skrivende stund er Dapla Lab i beta, og artikkelen dermed uferdig.

I syvende kapittel viser vi til datatjenestene som tilbys på Dapla. I dette kapitlet er det artikler om automatisk kildedataprosessering med kildomaten, pseudonymisering, dapla-statbank-client og tilgangsstyring med Dapla Ctrl.

Til slutt har vi en appendiks med litt forskjellig innhold. Her finnes det artikler om alt fra Altinn 3 til hvordan man kan bidra til denne manualen.

Forhåpentligvis senker denne boken terskelen for å ta i bruk Dapla. Kommentarer og ønsker vedrørende boken tas imot med åpne armer. Dette kan gjøres ved å lage en issue i GitHub-repoet.

God fornøyelse😁

Vi trenger bidragsytere!

Dapla er i konstant utvikling og det er manualen og! Derfor trenger vi flere bidragsytere til å fjerne utdatert informasjon, forbedre eksisterende artikler og skrive nye.

Kunne du tenkt deg å bidra? Les om hvordan du kan bidra i denne artikkelen i appendiksen. Har du lyst til å bidra, men er ikke helt sikker på hva du kan bidra med? Ta en titt på issues i GitHub-repoet.

Fotnoter

  1. Det som omtales som nye verktøy vil som regel bety R, Python, Git, GitHub og Jupyterlab.↩︎