Parquet-utforsker i VS Code

Utforsk Parquet-filene dine uten kode

Parquet
Vscode
SQL
Duckdb
Forfatter
Tilhører

Øyvind Bruer-Skarsbø

Seksjon for dataplattform (724)

Opprettet

February 7, 2025

Sist endret

February 7, 2025

I Dapla Lab tjenesten Vscode-python er nå extension’en vscode-parquet-visualizer installert. Den lar deg åpne en Parquet-fil uten bruk av Python- eller R-biblioteker. I tillegg lar den deg spørre mot datasettet med SQL, filtrere dataettet uten kode, sortere kolonner, gir deg metadata om kolonner og datasett, og gir en forhåndsvisning av komplekse celler.

I videoen under ser man hvordan man åpner en Parquet-fil i en bøtte fra et ssb-project. Filen som åpnes har 4 kolonner, 5 millioner rader og er på 85 megabytes.

Bruksområde

Bruksområdet for denne funksjonaliteten er å utforske Parquet-filer og ikke prosessere data i produksjon. Selv om man kan skrive ut et filtrert datasett med løsningen, så skal det ikke benyttes til prosessering som skal være reproduserbar siden det ikke dokumenteres med kode.

Skrive SQL

SQL-en som skrives må være duckdbsql siden det er dette extension’en benytter for å hente informasjon fra Parquet-filen.