dapla-toolbelt-metadata

Verktøy og klienter for å jobbe med Metadata på Dapla.

Lenker

Installasjon

Pip

Terminal
pip install dapla-toolbelt-metadata

Poetry

Terminal
poetry add dapla-toolbelt-metadata

Datasett

Den anbefalte måten å skape metadata for et nytt datasett er med Datadoc brukergrensesnittet. Men det finnes tilfeller hvor det kan være tungvint å bruke og man ønsker å jobbe med metadata ved hjelp av kodespråk. Det kan man gjøre med Datadoc klassen i dapla-toolbelt-metadata pakken.

Brukstilfeller

Nye tidsperioder

Det primære brukstilfelle er å skape metadata for datasett skapt for nye tidsperioder som en del av produksjonsløp.

I dette tilfelle er Datadoc brukergrensesnittet brukt for å skape det første metadatadokumentet. Man kan deretter bruke metadatadokumentet som en utgangspunkt for nye tidsperioder. Datadoc klassen utleder oppdatert informasjon fra filstien til datasettene for nye tidsperioder og oppdaterer metadataen til å stemme.

Note

Dette forutsetter at strukturen av datasettet og betydningen av variablene er lik mellom tidsperiodene. Om det finnes uforventede avvik så kastes en InconsistentDatasetsError med detaljer om avviket.

Kodeeksempel
Notebook
from dapla_metadata.datasets import Datadoc

meta = Datadoc(
1    dataset_path="gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2022_v1.parquet",
2    metadata_document_path="gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2021_v1__DOC.json",
)
3meta.write_metadata_document()
1
En ny tidsperiode av et datasett
2
Eksisterende metadatadokument
3
Skaper et nytt metadatadokument med filsti som stemmer med datasettet, i dette tilfellet gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2022_v1__DOC.json