Data-Collector
Det er bestemt at Data Collector skal avvikles og derfor er det ikke ønskelig å tilby nye team å bruke tjenesten. Ta kontakt med team Statistikktjenester dersom du har et behov for å bruke Data Collector.
Data Collector (DC) er et rammeverk for bruk av REST APIer som samler inn data fra eksterne ressurser og skriver det til kildebøtter. DC kjører en deklarativ spesifikasjon ved kjøretid som beskriver hvordan data skal samles inn. Spesifikasjonen er bygget med en veldefinert DSL.
DC-jobb startes fra Jupyter ved å bruke en funksjon fra Dapla Toolbelt. Innsamlingsjobber beskrives med en specification (json-fil).
Les mer om arkitektur og funksjonalitet
Bruke Collector fra Dapla-lab
Før brukeren kan kjøre DC fra Dapla Lab, må en team Statistikktjenester ha satt opp en instans for teamet.
Sett opp collector
notebook
import json
from dapla import CollectorClient
= "https://data-collector-<team_navn>.intern.ssb.no/tasks"
collector_url = CollectorClient(collector_url)
collector = None
specification
# Load specification from file
with open("<specification_file>.json") as specification_file:
= json.load(specification_file)
specification
= specification['configure'][0]['globalState']['global.topic']
topic print (topic)
Start data-innsamlingsjobb
notebook
= collector.start(specification)
response = response.json()['workerId']
task_id print(f"Startet collector jobb, data skal bli skrevet til gs://<kilde-bøtte>/{topic}/")
Liste kjøreneder tasks
notebook
= collector.running_tasks().json()
running_tasks print(running_tasks)
Stoppe kjøreneder tasks
notebook
= collector.stop(task_id)
stop_response print(stop_response)
Konfigurasjoner
Det er 3 Dapla-team med kjørende DC-instanser i prod- og test-miljøet:
collector-url
- skatt-person
- TEST:
- skattemelding: https://data-collector-skatt-person-skattemelding.intern.test.ssb.no/tasks
- skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.test.ssb.no/tasks
- PROD:
- skattemelding: https://data-collector-skatt-person-skattemelding.intern.ssb.no/tasks
- skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.ssb.no/tasks
- TEST:
- skatt-naering
- TEST: https://data-collector-skatt-naering.intern.test.ssb.no/tasks
- PROD: https://data-collector-skatt-naering.intern.ssb.no/tasks
- strukt-mva
- TEST: https://data-collector-strukt-mva.intern.test.ssb.no/tasks
- PROD: https://data-collector-strukt-mva.intern.ssb.no/tasks
Logger
Det er mulig å sjekke logger fra google-console for test og prod.