Introduksjon til SparkR

Akkurat som PySpark så gir SparkR oss et grensesnitt mot Apache Spark fra R. I denne notebooken viser vi noen eksempler hvordan du gjøre vanlige operasjoner med SparkR.

Oppsett

Eksemplene i notebooken bruker SparkR (k8s cluster) på https://jupyter.dapla.ssb.no/. Det vil si at den kan distribuere kjøringene på flere maskiner i Kubernetes.

spark

Java ref type org.apache.spark.sql.SparkSession id 1

Lese inn fil

file = read.parquet("gs://ssb-dapla-felles-data-produkt-prod/temp/timeseries.parquet")

selectedColumns <- select(file, "Date", "Year", "Quarter", "Month", "serie00", "serie01")
showDF(selectedColumns, numRows = 5)

+----------+----+-------+-----+------------------+------------------+
|      Date|Year|Quarter|Month|           serie00|           serie01|
+----------+----+-------+-----+------------------+------------------+
|2000-01-01|2000|      1|   01| 9.495232388801012|   19.016168503192|
|2000-02-01|2000|      1|   02| 10.70952411634649|21.404467063442723|
|2000-03-01|2000|      1|   03|11.118293927071951| 21.25035527677261|
|2000-04-01|2000|      2|   04| 9.346911680164684|19.982136698759238|
|2000-05-01|2000|      2|   05| 9.663303382177363|19.925236690504494|
+----------+----+-------+-----+------------------+------------------+
only showing top 5 rows

Skrive ut fil

Under skriver vi ut en fil og spesifiserer at vi overskriver evt filer med samme navn.

write.parquet(file,
              "gs://ssb-dapla-felles-data-produkt-prod/temp/timeseries_copy.parquet",
              mode = "overwrite")