Aprenda Spark com o Dados ao Cubo

Tiago Dias
3 min readFeb 20, 2024

--

Fala galera do mundo dos dados escrevi a série Fluxo de Dados com Spark no Dados ao Cubo em parceria com o canal Fluxo de Dados. Pensando no universo da análise de dados e processamento em larga escala, o Apache Spark se destaca como uma ferramenta importante. Então chegou a hora de aprender um pouco mais sobre Spark+Python ou simplesmente Pyspark!

Como Preparar Ambiente PySpark com Exemplos

Precisamos preparar um ambiente PySpark robusto e funcional. Veremos passo a passo como configurar o ambiente PySpark, fornecendo exemplos práticos ao longo do caminho.

Trabalhar com Data Sources no Spark

Aqui vamos trabalhar com data sources no Spark. O Spark será como nosso motor, ele servirá para processar grandes volumes de dados. Iremos apresentar como trabalhar com alguns data sources. Para começar as nossas origens de dados serão arquivos csv, json e um banco de dados relacional.

Aprender as Funções Spark Filter e Write

Chegou a hora de aprender as funções Spark filter e write no PySpark. Aqui iremos aprender como filtrar e gravar em outro lugar com Spark.

Aprender as Funções Spark GroupBy, Agg e Union

Dando continuidade vamos aprender mais algumas funções do Spark. Agora pensando em manipulação de dados para, juntar, transformar e agregar bases de dados. Hora de aprender as funções groupby, agg e union no Spark.

Aprender as Funções Spark Joins, WithColumn e Concat_ws

Mais algumas funções do Spark para aumentar a caixa de ferramentas. Ainda pensando em manipulação de dados para manipular as bases de dados. Iremos apresentar como realizar joins e criar colunas com Spark.

Aprender a Função Select do Spark

Para fechar vamos aprender a função Select do Spark. O Dados ao Cubo mostra como fazer seleção de dados com o PySpark utilizando a sua função Select. Pensando em manipulação de dados para fazer uma exploração na base.

Fluxo de Dados com Spark

Esse é o fluxo de dados com Spark uma introdução do Spark, apresentando algumas funcionalidades básicas. Para conferir cada tópico completo basta clicar em cada título que te levará direto para o Dados ao Cubo! Não deixe de mandar aquele feedback e compartilhar com o amigo que quer aprender Spark. Não deixa de conhecer outros conteúdos ao Cubo!!!

Conteúdos ao Cubo

Por fim, deixo algumas sugestões de conteúdos que você pode encontrar no Dados ao Cubo, sempre falando sobre o mundo dos dados.

Finalizo com um convite para você ser Parceiro de Publicação Dados ao Cubo e escrever o próximo artigo, compartilhando conhecimento para toda a comunidade de dados. Não esqueça de assinar a nossa Newsletter para ficar por dentro de todas as novidades.

--

--