dapla-toolbelt-metadata
Verktøy og klienter for å jobbe med Metadata på Dapla.
Lenker
- PyPI pakke: https://pypi.org/project/dapla-toolbelt-metadata/
- API dokumentasjon: https://statisticsnorway.github.io/dapla-toolbelt-metadata/
- GitHub repo: https://github.com/statisticsnorway/dapla-toolbelt-metadata
Installasjon
Pip
Terminal
pip install dapla-toolbelt-metadata
Poetry
Terminal
poetry add dapla-toolbelt-metadata
Datasett
Den anbefalte måten å skape metadata for et nytt datasett er med Datadoc brukergrensesnittet. Men det finnes tilfeller hvor det kan være tungvint å bruke og man ønsker å jobbe med metadata ved hjelp av kodespråk. Det kan man gjøre med Datadoc
klassen i dapla-toolbelt-metadata
pakken.
Brukstilfeller
Nye tidsperioder
Det primære brukstilfelle er å skape metadata for datasett skapt for nye tidsperioder som en del av produksjonsløp.
I dette tilfelle er Datadoc brukergrensesnittet brukt for å skape det første metadatadokumentet. Man kan deretter bruke metadatadokumentet som en utgangspunkt for nye tidsperioder. Datadoc
klassen utleder oppdatert informasjon fra filstien til datasettene for nye tidsperioder og oppdaterer metadataen til å stemme.
Dette forutsetter at strukturen av datasettet og betydningen av variablene er lik mellom tidsperiodene. Om det finnes uforventede avvik så kastes en InconsistentDatasetsError
med detaljer om avviket.
Kodeeksempel
Notebook
from dapla_metadata.datasets import Datadoc
= Datadoc(
meta 1="gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2022_v1.parquet",
dataset_path2="gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2021_v1__DOC.json",
metadata_document_path
)3 meta.write_metadata_document()
- 1
- En ny tidsperiode av et datasett
- 2
- Eksisterende metadatadokument
- 3
-
Skaper et nytt metadatadokument med filsti som stemmer med datasettet, i dette tilfellet
gs://ssb-staging-dapla-felles-data-delt/datadoc/sykefratot/klargjorte_data/person_testdata_p2022_v1__DOC.json