Introduksjon til SparkR

Akkurat som PySpark så gir SparkR oss et grensesnitt mot Apache Spark fra R. I denne notebooken viser vi noen eksempler hvordan du gjøre vanlige operasjoner med SparkR.

Oppsett

Eksemplene i notebooken bruker SparkR (k8s cluster)https://jupyter.dapla.ssb.no/. Det vil si at den kan distribuere kjøringene på flere maskiner i Kubernetes.

spark
Java ref type org.apache.spark.sql.SparkSession id 1 

Lese inn fil

file = read.parquet("gs://ssb-dapla-felles-data-produkt-prod/temp/timeseries.parquet")

Skrive ut fil

Under skriver vi ut en fil og spesifiserer at vi overskriver evt filer med samme navn.

write.parquet(file,
              "gs://ssb-dapla-felles-data-produkt-prod/temp/timeseries_copy.parquet",
              mode = "overwrite")