SSB-project
Denne artikkelen fokuserer på SSB-project som GitHub-mal. Vi har skrevet en egen artikkel for SSB-project som verktøy for å håndtere Python-pakker: Pakkehåndtering i Python.
SSB-project er en mal for GitHub repoer som lar deg håndtere pakker i Python med poetry.
Etter en git clone
, kjør:
terminal
ssb-project build
Dette aktiverer poetry, installerer pakker og lager en kernel med navnet til repoet. Dette bør gjøres hver gang poetry.toml filen endrer seg for at kernelen oppdaterer seg.
Kjør poetry add <navn på pakke>
i terminalen for å installere pakker i en kernel.
Statistikkproduksjon på Dapla må være reproduserbart, delbart og gjenkjennelig. SSB-project er et verktøy som hjelper deg med dette ved å gjøre følgende:
- versjonshåndtere kode med Git
- opprette et GitHub-repo etter SSB-standard
- opprette et virtuelt miljø som husker hvilke versjoner av pakker og programmeringsspråk du brukte
- opprette en Jupyter kernel som kan brukes i Jupyterlab
- konfigurere prosjektet til å passe med enten prodsonen eller Dapla.
Vi mener at ssb-project er et naturlig sted å starte når man skal bygge opp koden i Python eller R. Det gjelder både på bakken og på sky. I denne delen av kapitlet forklarer vi deg hvordan du kan ta i bruk ssb-project.
Kort fortalt kan du kjøre denne kommandoen i en terminal:
terminal
ssb-project create stat-testprod
Da vil få en mappe som heter stat-testprod med følgende innhold:
- Standard mappestruktur En standard mappestruktur gjør det lettere å dele og samarbeide om kode, som igjen reduserer sårbarheten knyttet til at få personer kjenner koden.
- Virtuelt miljø Virtuelle miljøer isolerer og lagrer informasjon knyttet til kode. For eksempel hvilken versjon av Python du bruker og tilhørende pakkeversjoner. Det er viktig for at publiserte tall skal være reproduserbare. Verktøyet for å lage virtuelt miljø er Poetry.
- Versjonshåndtering med Git Initierer versjonshåndtering med Git og legger til SSBs anbefalte .gitignore og .gitattributes. Det sikrer at du ikke versjonhåndterer filer/informasjon som ikke skal versjonshåndteres.
I tillegg lar ssb-project deg opprette et GitHub-repo hvis du ønsker. Hvis du velger å la ssb-project opprette et GitHub-repo for deg, så vil det også sette opp SSBs anbefalte GitHub-oppsett. Det er viktig for at du skal kunne dele koden din med andre i SSB på en sikker måte.
Dokumentasjonen for ssb-project
finnes her: https://statisticsnorway.github.io/ssb-project-cli/. Det oppdateres hver gang en ny versjon av ssb-project
slippes.
Forberedelser
Før du kan ta i bruk ssb-project så er det et par ting som må være på plass:
- Du må ha konfigurert Git etter SSB sin standard (les mer om hvordan her).
- Hvis du ønsker at ssb-project også skal opprette et GitHub-repo for deg må også følgende være på plass:
- Du må ha en GitHub-bruker (les hvordan her)
- Skru på 2-faktor autentifisering for GitHub-brukeren din (les hvordan her)
- Være koblet mot SSBs organisasjon statisticsnorway på GitHub (les hvordan her)
- Opprette Personal Access Token (PAT) og godkjenne det for bruk mot statisticsnorway (les hvordan her)
Det er også å anbefale at du lagrer PAT lokalt/i Dapla Lab slik at du ikke trenger å forholde deg til det når jobber med Git og GitHub. Hvis du har alt dette på plass så kan du bare fortsette å følge de neste kapitlene.
Opprett ssb-project
Uten GitHub-repo
For å opprette et nytt ssb-project uten GitHub-repo gjør du følgende:
Åpne en terminal. De fleste vil gjøre dette i Jupyterlab på bakke eller sky og da kan de bare trykke på det blå ➕-tegnet i Jupyterlab og velge Terminal.
Før vi kjører programmet må vi være obs på at ssb-project vil opprette en ny mappe der vi står. Gå derfor til den mappen du ønsker å ha den nye prosjektmappen i. For å opprette et prosjekt som heter stat-testprod så skriver du følgende i terminalen:
terminal
ssb-project create stat-testprod
Hvis du stod i hjemmemappen din på når du skrev inn kommandoen over i terminalen, så har du fått mappestrukturen som vises i Figur 1. 1. Den inneholder følgende :
- .git-mappe som blir opprettet for å versjonshåndtere med Git.
- src-mappe som skal inneholde all koden som utgjør produksjonsløpet. src er kort for source
- tests-mappe som inneholder tester du skriver for koden din.
- LICENCE-fil som skal benyttes for public-repos i SSB.
- poetry.lock-fil som inneholder alle versjoner av Python-pakker som blir brukt.
- pyproject.toml-fil som inneholder informasjon om prosjektet og hvilke pakker som blir brukt.
- README.md-fil som brukes for tekstlig innhold på GitHub-siden for prosjektet.
Med Github-repo
Over så opprettet vi et ssb-project uten å opprette et GitHub-repo. Hvis du ønsker å opprette et GitHub-repo også må du endre kommandoen over til:
terminal
ssb-project create stat-testprod --github --github-token='blablabla'
Kommandoen over oppretter en mappestruktur slik vi så tidligere, men også et ssb-project som heter stat-testprod med et GitHub-repo med samme navn. Som du ser så må vi da sende med opsjonen --github
og PAT med opsjonen --github-token='blablabla'
. Repoet i GitHub ser da ut som i Figur 2. Hvis du ønsker å slippe å måtte forholde deg til PAT hver gang interagerer med GitHub, kan du følge denne beskrivelsen for å lagre den lokalt. Da kan droppe --github-token='blablabla'
fra kommandoen over.
Når du har opprettet et nytt ssb-project, eller bygget et eksisterende prosjekt, så kan det ta rundt 30 sekunder før kernelen viser seg i Jupterlab-launcher. Vær tålmodig!
Bygg eksisterende ssb-project
Når vi skal samarbeide med andre om kode så gjør vi dette via GitHub. Når du pusher koden din til GitHub, så kan samarbeidspartnere pulle ned koden og jobbe videre med den. Men når de henter ned koden så vil de bare hente ned selve koden, ikke pakker og Python-versjonen som ble brukt. De må installere alt som du hadde installert. I tillegg trenger de en kernel hvis de skal jobbe i Jupyterlab. ssb-project gjør det svært enkelt å bygge opp det du trenger, siden det virtuelle miljøet har all informasjon om hva som trengs.
For at samarbeidspartneren din skal kunne bygge miljøet på nytt, må de ha gjort en minimal konfigurering av Git. Les mer om hvordan du frem for å gjøre dette her.
For å bygge opp et eksisterende miljø gjør du følgende:
- Først må du kopiere prosjektet ned lokalt, eller klone repoet med git-terminologi
terminal
git clone https://github.com/statisticsnorway/<prosjektnavn>
- Gå inn i mappen du klonet
terminal
cd <prosjektnavn>
- Skape et virtuelt miljø og installere en tilsvarende Jupyter kernel med
terminal
ssb-project build
Slette ssb-project
Det vil være tilfeller hvor man ønsker å slette et ssb-project, enten fordi man ikke trenger koden lenger eller fordi man bare testet litt.
Lokalt
Hvis man jobber med flere prosjekter så kan det fort bli mange Jupyter kerneler hengende igjen. Derfor er det også mulighet å kjøre
terminal
ssb-project clean stat-testprod
som sletter Jupyter-kernelen og de installerte pakkene i prosjektet. Hvis du også ønsker å slette selve mappen med kode må du gjøre det manuelt2:
terminal
rm -rf ~/stat-testprod/
Prosjektmappen over lå direkte i hjemmemappen min og hjemmemappen på Linux kan alltid referes til med et tilda-tegn ~.
Arkiver GitHub-repo
GitHub-repoer som er opprettet under SSB sin organinasjons statisticsnorway på GitHub kan ikke slettes, bare arkiveres. Grunnen er at hvis man oppdager en sårbarhet senere så er det viktig å kunne se repoet for å forstå hva som har skjedd.
Hvis du ikke trenger et GitHub-repo lenger kan man arkivere repoet. Det gjør du på følgende måte:
- Gi inn i repoet Settings slik som vist med rød pil i Figur 3.
- Under General scroller du deg ned til delen som heter Danger Zone og velger Archive this repository, slik som vist på Figur 4.
- I dialogboksen som dukker opp fyller du inn reponavnet som beskrevet og trykker på I understand the consequences, archive this repository.
Når det er gjort så er repoet lesbart, men man kan ikke jobbe med det. Men som vi ser av @#fig-github-repo-settings-archive-warning kan man omgjøre arkiveringen senere hvis det skulle være ønskelig.
Spark i ssb-project
For å kunne bruke Spark i et ssb-project må man først installere pyspark. Det gjør du ved å skrive følgende i en terminal:
terminal
poetry add pyspark==$(pip show pyspark | grep Version | egrep -o "([0-9]{1,}\.)+[0-9]{1,}") --no-dev
Her installerer du samme versjon av pyspark som på Jupyterlab.
Videre kan vi konfigurere Spark til å enten kjøre på lokal maskin eller på flere maskiner (såkalte clusters). Under beskriver vi begge variantene.
Lokal maskin
Oppsettet for Pyspark på lokal maskin er det enkleste å sette opp siden Pyspark vil ha direkte tilgang til det lokale filsystemet. Man kan bruke miljøvariabelen PYSPARK_PYTHON
til å peke på det virtuelle miljøet, og dermed vil Pyspark også ha tilgang til alle pakkene som er installert der. I en notebook vil dette kunne settes opp slik:
notebook
import os
import subprocess
# Finner filstien til det virtuelle miljøet
= subprocess.run(['poetry', 'run', 'which', 'python'],
python_path =True, text=True).stdout.rstrip('\n')
capture_output
"PYSPARK_PYTHON"] = python_path
os.environ["PYSPARK_SUBMIT_ARGS"] = os.environ["PYSPARK_LOCAL_SUBMIT_ARGS"] os.environ[
Når du oppretter en Notebook og bruker den kernelen du har laget så må du alltid ha denne på toppen av notebooken. Det initialiserer Spark slik at det kan brukes i notebooken.
notebook
%run /usr/local/share/jupyter/kernels/pyspark_local/init.py
Dette scriptet vil sette et spark
objekt som brukes for å kalle API’et til pyspark.
Cluster
Hvis man vil kjøre Pyspark i et cluster (dvs. på flere maskiner) så vil databehandlingen foregå på andre maskiner som ikke har tilgang til det lokale filsystemet. Man må dermed lage en “pakke” av det virtuelle miljøet på lokal maskin og tilgjengeliggjøre dette for alle maskinene i clusteret. For å lage en slik “pakke” kan man bruke et bibliotek som heter venv-pack
. Dette kan kjøres fra et terminalvindu slik:
terminal
venv-pack -p .venv -o pyspark_venv.tar.gz
Merk at kommandoen over må kjøres fra rot-mappen i prosjektet ditt. Her er pyspark_venv.tar.gz
et tilfeldig valgt filnavn, men dette filnavnet skal brukes videre i notebooken.
notebook
import os
import subprocess
# Miljøvariabel som peker på en utpakket versjon av det virtuelle miljøet
"PYSPARK_PYTHON"] = "./environment/bin/python"
os.environ[
# Legg til et flagg, --archives, som peker på "pakken" med det virtuelle miljøet
= os.environ["PYSPARK_K8S_SUBMIT_ARGS"].split(' ')
conf = conf.index('pyspark-shell')
last_index = ['--archives', 'pyspark_venv.tar.gz#environment']
conf[last_index:last_index] "PYSPARK_SUBMIT_ARGS"] = ' '.join(conf) os.environ[
Når du oppretter en Notebook og bruker den kernelen du har laget så må du alltid ha denne på toppen av notebooken. Det initialiserer Spark slik at det kan brukes i notebooken.
notebook
%run /usr/local/share/jupyter/kernels/pyspark_k8s/init.py
Dette scriptet vil sette et spark
objekt som brukes for å kalle API’et til pyspark.
Tips og triks
I denne delen av kapitlet vil vi gi deg noen tips og triks som kan være nyttige når du jobber med ssb-project.
Poetry
ssb-project bruker Poetry for å håndtere virtuelle miljøer. Poetry er et verktøy som gjør det enkelt å installere pakker og håndtere versjoner av disse. Det er også Poetry som håndterer Jupyter-kernelen for deg.
Hvis du etterlyser funksjonalitet i et ssb-project så kan det være nyttig å lese dokumentasjonen til Poetry for å se om det er mulig å få til det du ønsker. Les også vår egne artikkel Poetry og SSB-project - Pakkehåndtering i Python.
Full disk på Dapla
Det “lokale” filsystemet på Dapla har kun 10GB diskplass. Har du mange virtuelle miljøer på denne disken kan det fort bli fullt, siden alle pakker blir installert her. Vanligvis er det 2 grunner til at disken blir full:
For mange virtuelle miljøer (ssb-projects) lagret lokalt.
Dette vil ofte kunne løses ved å slette virtuelle miljøer som ikke lenger er i bruk. Hvis du har 5 virtuelle miljøer som hver bruker 1GB, og du kun jobber på en av de nå, så vil du frigjøre 40% av disken ved å slette 4 av dem. Husk at det permanente lagringsstedet for kode er på GitHub, og du kan alltid klone ned et prosjekt senere og bygge det hvis det trengs./home/jovyan/.cache/
har blitt for stort.
Dette er en mappe som brukes av applikasjoner til å lagre midlertidig data slik at de kan kjøre raskere. Denne kan bli ganske stor etter hvert. Ofte kan man frigjøre flere GB ved å slette denne. Du sletter denne mappen ved å skrive følgende i en terminal:
terminal
rm -rf /home/jovyan/.cache/
Hvis du opplever at disken er full, så kan det anbefales å undersøke hvilke mapper som tar størst plass med følgende kommando i terminalen:
terminal
cd ~ && du -h --max-depth=5 | sort -rh | head -n 10 && cd -
Kommandoen over sjekker, fra hjemmemappen din, hvilke mapper og undermapper som tar mest plass. Den viser de 10 største mappene. Hvis du ønsker å se flere mapper så kan du endre tallet etter head -n. Hvis du ønsker å se alle mapper så kan du fjerne head -n. --max-depth=5
betyr at den kun sjekker mapper som er 5 mapper dype fra hjemmemappen din.
Når du har gjort det kan selv vurdere hvilke som kan slettes for å frigjøre plass.
R og renv
R-pakken, renv
, er et verktøy som lar oss opprette et miljø for R og installere pakker. Det er anbefalt å bruke renv for å sikre at alle som jobber med prosjektet har samme versjon av pakkene. I tillegg er det enkelt å dele prosjektet med andre.
Oppretting av renv-miljø og installering av pakker må gjøres fra terminal for å få riktig oppsett. For å starte R i terminalen i Jupyter/DAPLA:
- Åpne en terminal fra Launcher
- Stå i mappen der du vil aktivere det virtuelle miljøet/installere pakker, dvs prosjekt mappen.
- Starte R ved å skrive in
R
Starte renv i et eksisterende prosjekt
For å installere dine egne R-pakker må du opprette et renv-miljø med renv. Dette kan gjøres ved å starte R i terminalen (se over) og skrive:
terminal
::init() renv
Kommandoen aktiverer et renv-miljø i mappen du står i. Rent praktisk vil det si at du fikk følgende filer/mapper i mappen din:
renv.lock
En fil som inneholder versjoner av alle pakker du benytter i koden din..Rprofile En fil som inneholder informasjon om oppsetting av miljø.
renv
Mappe som inneholder alle pakkene du installerer.renv/activate.R En fil som aktiverer renv miljøet for et prosjekt.
Kobler en .R eller notebook fil til et renv-miljø
For å ta i bruk et renv-miljø må det aktiveres ved starten av koden som skal kjøres. I JupyterLab når du åpner en .R-fil som en notebook må renv-miljøet aktiveres ved:
notebook
::autoload() renv
Deretter kan du benytte pakker som er installerte (se neste avsnitt) og funksjoner ved library()
osv. Funkjsonen renv::autoload()
vil lete etter filene i prosjektet for å aktivere miljøet, både i prosjekt-mappen og i foreldre-mapper.
Installering av pakker
Pakker kan installeres fra R på terminalen eller i en notebook/.R fil. Vi installerer pakker med funksjonen renv::install()
. For eksempel, for å installere pakken PxWebApiData:
notebook
::install("PxWebApiData") renv
For å installere R-pakker som ligger på ‘statisticsnorway’ området på github må det spesifiseres foran pakkenavnet:
notebook
::install("statisticsnorway/ssb-klassr") renv
For å installere en spesifikk versjon av en pakke kan du spesifisere dette med installering med @
og versjonsnummer. For eksempel å installere PxWEbApiData
versjon 0.4.0:
terminal
::install("PxWebApiData@0.4.0") renv
For å lagre versjonsnummer av de nye pakkene som er installerte til renv.lock filen, kjør:
notebook
`renv::snapshot()`
Dele prosjektet og renv-miljøet med andre
Før du deler prosjektet forsikre det om at renv.lock-filen er oppdatert. Dette kan gjøres ved å kjøre:
notebook
::snapshot() renv
For at en pakke skal lagres i renv.lock må pakken benyttes ved library()
et sted i prosjektet (på en .R eller .ipynb fil).
For å dele renv-miljøet som en del av prosjektet skal følgende filene være på github: renv.lock, .Rprofile og renv/activate.R
Ta i bruk et prosjekt og renv-miljø fra andre
Hvis prosjektet er opprettet av noen andre, og har blitt delt med deg, kan alle pakkene i prosjektet installeres samtidig. Clone repository og start deretter R i terminalen. Kjør følgende for å installere alle nødvendige pakker:
terminal
:restore() renv
Avinstallering
Individuelle pakker kan fjernes fra renv-miljøet ved renv::remove()
-funksjonen. For eksempel:
terminal
::remove("PxWebApiData") renv
For å fjerne fra renv.lock-filen også må du ta en snapshot()
etterpå.
terminal
::snapshot() renv
En annen nyttig funksjon er renv::clean()
. Dette fjerner alle pakker fra library som ikke er i bruk
terminal
::clean() renv
Igjen må du ta en snapshot()
for at endringer skal lagres på renv.lock-filen
Oppgradere pakker
For å oppgradere en pakke kan du bruke renv::update()
. For eksempel, for å oppgradere PxWebApiData
skriv:
terminal
::update("PxWebApiData") renv
Husk å ta en snapshot()
etterpå for å lagre endringer til renv.lock-filen. Det betyr at du og andre kan gjenskape miljøet på nytt.
terminal
::snapshot() renv
Oppgradering av R
I Jupyterlab på Dapla og i produksjonssone vil versjonen av R oppgraderes jevnlig. Dette er fordi operativsystemet og programmer som R er avhengig skal holdes oppdatert. For at R skal fungere optimalt må det oppgraderes ofte. Dette skaper noen utfordringer for renv-miljøer som er avhengig av en spesifikk versjon av R.
Hvis du plutselig får en feilmelding ved oppstart eller når du kjøre renv::autoload()
, om at R-versjonen er forskjellig fra det den som e r oppgitt lock-filen, har det trolig vært en oppgradering av R siden sist noen jobbet med koden. Følg denne oppskriften for å løse opp i problemene:
Benytt prosjekt-biblioteket ved å kjøre:
Start R i terminal.
Oppgrader versjon av renv ved:
terminal
::upgrade() renv
- Oppgrader alle pakkene ved:
terminal
::hydrate(update = "all") renv
- Lagre renv.lock filen:
terminal
::snapshot() renv
For mer informasjon kan du lese denne artikkelen om oppdatering av renv her
Ta det lang tid til å starte et renv-miljø?
Ved å aktivere et renv-miljø ved renv::autoload()
søker R i alle programfiler for å sjekke at alle pakker som benyttes er installerte. Hvis du har en veldig stor repository kan dette ta en lang tid. En løsning er å opprette en .renvignore
fil som spesifisere hvilke filer skal ignoreres. For eksempel om alle R kode ligger i .R filer kan .renvignore
inneholder *.ipynb (ignorere all notebook filer).
Flytting mellom jupyter på bakken og Dapla
Pakker installeres fra forkjellige sted når vi jobber på Dapla vs jupyter på bakken. For å benytte et renv-miljø i Jupyter som var laget i Jupyter på bakken må vi endre repository i renv.lock-filen.
Pakke installering med renv på bakken
Prosessen med å installere pakker for R på bakken er det samme som på Dapla. Noen pakker (for eksempel devtools
) kan foreløpig ikke installeres på bakken på egenhånd pga 3. parti avhengigheter. Vi jobber med å finne en løsning til dette.
For å installere arrow
, kopier og kjør følgende kommando i R:
terminal
install.packages("/ssb/bruker/felles/R_pakker/arrow_11.0.0.2.tar.gz",
repos = NULL,
type = "source")
Fotnoter
Filer og mapper som starter med punktum er skjulte med mindre man ber om å se dem. I Jupyterlab kan disse vises i filutforskeren ved å velge View fra menylinjen, og deretter velge Show hidden files. I en terminal skriver man
ls -a
for å se de.↩︎Dette kan også gjøres ved å høyreklikke på mappen i Jupyterlab sin filutforsker og velge Delete.↩︎