I Dapla Lab tjenesten Vscode-python er nå extension’en vscode-parquet-visualizer installert. Den lar deg åpne en Parquet-fil uten bruk av Python- eller R-biblioteker. I tillegg lar den deg spørre mot datasettet med SQL, filtrere dataettet uten kode, sortere kolonner, gir deg metadata om kolonner og datasett, og gir en forhåndsvisning av komplekse celler.
I videoen under ser man hvordan man åpner en Parquet-fil i en bøtte fra et ssb-project. Filen som åpnes har 4 kolonner, 5 millioner rader og er på 85 megabytes.
Bruksområde
Bruksområdet for denne funksjonaliteten er å utforske Parquet-filer og ikke prosessere data i produksjon. Selv om man kan skrive ut et filtrert datasett med løsningen, så skal det ikke benyttes til prosessering som skal være reproduserbar siden det ikke dokumenteres med kode.
Skrive SQL
SQL-en som skrives må være duckdbsql siden det er dette extension’en benytter for å hente informasjon fra Parquet-filen.