Iniciaremos importando alguns itens para conectar ao Spark.

In [1]:
from pyspark.sql import SparkSession, Row

Criaremos uma sessão com o Spark.

In [2]:
spark = SparkSession.builder.appName("demo-app").getOrCreate()

Criaremos um DataFrame com dados a serem salvos.

In [3]:
pessoas_df = spark.createDataFrame([
    Row(nome="Pedro", idade=15),
    Row(nome="João", idade=30),
    Row(nome="Maria", idade=19),
    Row(nome="Marcelo", idade=18),
    Row(nome="Alex", idade=38),
    Row(nome="Otavio", idade=44),
    Row(nome="Ricardo", idade=23),
    Row(nome="Camila", idade=12),
    Row(nome="Alice", idade=24),
    Row(nome="Marlei", idade=32),
    Row(nome="Marilene", idade=56),
    Row(nome="Judite", idade=60),
])

Salvaremos o DataFrame como um arquivo Parquet.

In [4]:
pessoas_df.write.parquet("pessoas.parquet")


Carregaremos o arquivo Parquet que acabamos de criar para efetuar algumas consultas, todas informações são preservadas.

In [5]:
parquet_df = spark.read.parquet("pessoas.parquet")

Criaremos uma View temporária para executar alguns comandos SQL.

In [6]:
parquet_df.createOrReplaceTempView("pessoasView")

Listaremos todos os itens salvos no Parquet para conferir com o que criamos inicialmente.

In [7]:
todas_pessoas = spark.sql("SELECT nome, idade FROM pessoasView")
todas_pessoas.show()

+--------+-----+
|    nome|idade|
+--------+-----+
| Ricardo|   23|
| Marcelo|   18|
|  Marlei|   32|
|Marilene|   56|
|  Judite|   60|
|   Pedro|   15|
|  Camila|   12|
|   Alice|   24|
|    Alex|   38|
|  Otavio|   44|
|    João|   30|
|   Maria|   19|
+--------+-----+


Podemos efetuar outras pesquisas, como busca todas pessoas maiores de idade.

In [8]:
maiores_de_idade = spark.sql("SELECT nome, idade FROM pessoasView WHERE idade >= 18")
maiores_de_idade.show()

+--------+-----+
|    nome|idade|
+--------+-----+
| Ricardo|   23|
| Marcelo|   18|
|  Marlei|   32|
|Marilene|   56|
|  Judite|   60|
|   Alice|   24|
|    Alex|   38|
|  Otavio|   44|
|    João|   30|
|   Maria|   19|
+--------+-----+


Por fim, encerramos a sessão com o Spark.

In [9]:
spark.stop()