Data-Collector

Data Collector skal avvikles

Det er bestemt at Data Collector skal avvikles og derfor er det ikke ønskelig å tilby nye team å bruke tjenesten. Ta kontakt med team Statistikktjenester dersom du har et behov for å bruke Data Collector.

Data Collector (DC) er et rammeverk for bruk av REST APIer som samler inn data fra eksterne ressurser og skriver det til kildebøtter. DC kjører en deklarativ spesifikasjon ved kjøretid som beskriver hvordan data skal samles inn. Spesifikasjonen er bygget med en veldefinert DSL.

DC-jobb startes fra Jupyter ved å bruke en funksjon fra Dapla Toolbelt. Innsamlingsjobber beskrives med en specification (json-fil).

Les mer om arkitektur og funksjonalitet

Bruke Collector fra Dapla-lab

Før brukeren kan kjøre DC fra Dapla Lab, må en team Statistikktjenester ha satt opp en instans for teamet.

Sett opp collector

notebook
import json

from dapla import CollectorClient

collector_url = "https://data-collector-<team_navn>.intern.ssb.no/tasks"
collector = CollectorClient(collector_url)
specification = None

# Load specification from file
with open("<specification_file>.json") as specification_file:
    specification = json.load(specification_file)

topic = specification['configure'][0]['globalState']['global.topic']
print (topic)

Start data-innsamlingsjobb

notebook
response = collector.start(specification)
task_id = response.json()['workerId']
print(f"Startet collector jobb, data skal bli skrevet til gs://<kilde-bøtte>/{topic}/")

Liste kjøreneder tasks

notebook
running_tasks = collector.running_tasks().json()
print(running_tasks)

Stoppe kjøreneder tasks

notebook

stop_response = collector.stop(task_id)
print(stop_response)
     

Konfigurasjoner

Det er 3 Dapla-team med kjørende DC-instanser i prod- og test-miljøet:

collector-url

  • skatt-person
    • TEST:
      • skattemelding: https://data-collector-skatt-person-skattemelding.intern.test.ssb.no/tasks
      • skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.test.ssb.no/tasks
    • PROD:
      • skattemelding: https://data-collector-skatt-person-skattemelding.intern.ssb.no/tasks
      • skatteoppgjor: https://data-collector-skatt-person-skatteoppgjor.intern.ssb.no/tasks
  • skatt-naering
    • TEST: https://data-collector-skatt-naering.intern.test.ssb.no/tasks
    • PROD: https://data-collector-skatt-naering.intern.ssb.no/tasks
  • strukt-mva
    • TEST: https://data-collector-strukt-mva.intern.test.ssb.no/tasks
    • PROD: https://data-collector-strukt-mva.intern.ssb.no/tasks

Logger

Det er mulig å sjekke logger fra google-console for test og prod.