Delomaten
Delomaten er en tjeneste for å automatisere deling av data mellom seksjoner og team som har forskjellige datatilganger av hensyn til behov og personvern. Dette gjøres ved at tjenesten pseudonymiserer eller depseudonymiserer felt i datasett før den lagres i en spesiell deltbøtte som det delende teamet ikke har lesetilgang til. Tjenesten leser paruqet datafiler og datadoc metadata fra teamets produktbøtte, prosesserer dem og deretter skriver dem til en mappe i ‘delomat’ deltbøtte. Datadoc metadatafiler for dataen er påbudt. Hvis data filer blir flyttet til kildemappen uten tilhørende metadatafil innen 5 minutter vil delomaten jobben feile.
Forberedelser
Før et Dapla-team kan ta i bruk delomaten må tjenesten være aktivert for teamet. Dette kan gjøres selvbetjent som en feature hvor både shared-buckets
og delomaten
må skrus på. Alternativt kan man opprette en Kundeservice-sak og be om å hjelp til dette.
Til slutt oppretter man en ‘delomat’ deltbøtte.
Sette opp tjenesten
Tjenesten lar statistikere konfigurere hvilke felt som skal pseudonymiseres/depseudonymiseres før dataen blir lagret i deltbøtten gjennom en .yaml fil. I likhet med kildomaten oppretter man kilder under automation
mappen i teamets IAC repo. For delomaten ligger disse under automation/shared-data
. Delomaten forventer en config.yaml
fil per kilde. F.eks. hvis man skal opprette en delomaten-jobb i prod-miljøet som heter ‘forbruk’ oppretter man filen automation/shared-data/mitt-dapla-team-prod/forbruk/config.yaml
.
Konfigurasjonsfil
Konfigurasjonsfilen inneholder oppskriften på hvilke felt som skal pseudonymiseres/depseudonymiseres og med hvilken algoritme som skal brukes.
automation/shared-data/mitt-dapla-team-prod/forbruk/config.yaml
shared_bucket: "delomatentest"
source_folder_prefix: "forbruk/"
destination_folder: "forbruk"
memory_size: 3
pseudo:
- name: task_one
columns: [ "fnr", "snr" ]
pseudo_operation: "PSEUDO"
encryption:
algorithm: "sid_mapping"
sid_snapshot_date: "2025-07-07"
I dette eksempelet definerer vi en delomaten-jobb som vil pseudonymisere fnr
og snr
feltene ved bruk av sid mapping og katalogdato 2025-07-07
. Det er også mulig å spesifisere forskjellige algoritmer for forskjellige felt.
automation/shared-data/mitt-dapla-team-prod/ledstill/config.yaml
shared_bucket: "delomatentest"
source_folder_prefix: "ledstill/"
destination_folder: "ledstill"
memory_size: 2
pseudo:
- name: task_one
columns: [ "fnr"]
pseudo_operation: "DEPSEUDO"
encryption:
algorithm: "sid_mapping"
sid_snapshot_date: "2025-07-07"
- name: task_two
columns: [ "fornavn"]
pseudo_operation: "DEPSEUDO"
encryption:
algorithm: "default"
Her depseudonymiserer vi fnr
kolonnen med sid mapping algoritmen, mens fornavn
blir depseudonymisert med standardalgoritmen DAEAD. Konfigurasjonsfilen blir validert når du oppretter en pull request på GitHub. Der vil du få eventuelle feilmeldinger om du har feilkonfigurert delomaten.
Hvis du så trykker deg inn på workflowen som feilet vil du få en beskrivende feilmelding markert i rødt som f.eks: