Data-Collector
Det er bestemt at Data Collector skal avvikles og derfor er det ikke ønskelig å tilby nye team å bruke tjenesten. Ta kontakt med team Statistikktjenester dersom du har et behov for å bruke Data Collector.
Data Collector (DC) er et rammeverk for bruk av REST APIer som samler inn data fra eksterne ressurser og skriver det til kildebøtter. DC kjører en deklarativ spesifikasjon ved kjøretid som beskriver hvordan data skal samles inn. Spesifikasjonen er bygget med en veldefinert DSL.
DC-jobb startes fra Jupyter ved å bruke en funksjon fra Dapla Toolbelt. Innsamlingsjobber beskrives med en specification (json-fil).
Les mer om arkitektur og funksjonalitet
Bruke Collector fra Dapla-lab
Før brukeren kan kjøre DC fra Dapla Lab, må en team Statistikktjenester ha satt opp en instans for teamet.
Sett opp collector
notebook
import json
from dapla import CollectorClient
collector_url = "https://data-collector-<team_navn>.intern.ssb.no/tasks"
collector = CollectorClient(collector_url)
specification = None
# Load specification from file
with open("<specification_file>.json") as specification_file:
specification = json.load(specification_file)
topic = specification['configure'][0]['globalState']['global.topic']
print (topic)Start data-innsamlingsjobb
notebook
response = collector.start(specification)
task_id = response.json()['workerId']
print(f"Startet collector jobb, data skal bli skrevet til gs://<kilde-bøtte>/{topic}/")Liste kjøreneder tasks
notebook
running_tasks = collector.running_tasks().json()
print(running_tasks)Stoppe kjøreneder tasks
notebook
stop_response = collector.stop(task_id)
print(stop_response)
Konfigurasjoner
Det er 3 Dapla-team med kjørende DC-instanser i prod- og test-miljøet:
collector-url
- skatt-person
- TEST:
- skattemelding: https://data-collector-skatt-person-skattemelding.intern.test.ssb.no/tasks
- skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.test.ssb.no/tasks
- PROD:
- skattemelding: https://data-collector-skatt-person-skattemelding.intern.ssb.no/tasks
- skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.ssb.no/tasks
- TEST:
- skatt-naering
- TEST: https://data-collector-skatt-naering.intern.test.ssb.no/tasks
- PROD: https://data-collector-skatt-naering.intern.ssb.no/tasks
- strukt-mva
- TEST: https://data-collector-strukt-mva.intern.test.ssb.no/tasks
- PROD: https://data-collector-strukt-mva.intern.ssb.no/tasks
Logger
Det er mulig å sjekke logger fra google-console for test og prod.