Especialista em Engenharia de Dados

Full-Time in São Paulo, BR %LABEL_POSITION_TYPE_REMOTE_HYBRID% - Data

Somos o maior aplicativo de contratação de serviços da América Latina!

O GetNinjas nasceu em 2011 para resolver a dificuldade de encontrar indicação de bons prestadores de serviço. Hoje, conectamos mais de 5 milhões de pedidos de indicação em mais de 500 categorias diferentes 🚀

Estamos desenvolvendo um ecossistema de contratação de serviços nunca visto antes

Estamos em constante evolução! Estamos reinventando maneiras de atender nossos clientes, expandindo novas linhas de receita e transformando nosso modelo de negócios. No último ano, iniciamos uma transformação de dentro para fora, com a renovação da diretoria, a definição de novos direcionadores estratégicos e um plano de negócios que nos levará a um novo patamar.

E é aqui que você entra! 🥷

Estamos criando um produto novo e buscamos um Data Engineer Especialista para fazer parte da nossa equipe de Dados. Esse time é responsável por desenvolver e manter uma infraestrutura de dados segura, eficiente e escalável, garantindo que as soluções de dados apoiem decisões estratégicas e contribuam diretamente para o sucesso dos nossos produtos. A posição segue nosso modelo de trabalho híbrido (4x por semana em Pinheiros/SP).

O que esperamos de você:

Desenvolver e otimizar pipelines de dados no Databricks: Criar e manter pipelines de ETL e ELT performáticos e seguros, garantindo a coleta, processamento e armazenamento eficiente de grandes volumes de dados.
Projetar e manter arquiteturas de Data Lakehouse: Assegurar a organização, estruturação e otimização de dados não estruturado
Gerenciar e monitorar cargas de dados: Analisar e corrigir eventuais problemas na execução de cargas de dados, assegurando a estabilidade e o desempenho dos pipelines de dados.
Criar e manter modelos de dados analíticos: Apoiar na captura, modelagem e transformação de dados brutos em formatos otimizados para consumo analítico.
Implementar estruturas de tracking, logging e monitoramento: Estabelecer processos robustos de rastreabilidade de dados, monitorando continuamente a integridade e a performance dos pipelines.
Seguir as práticas de governança de dados: Garantir que todas as soluções sigam as melhores práticas de segurança, privacidade e conformidade com normas de governança de dados.
Desenvolver código em Python e PySpark: Implementar soluções de transformação de dados utilizando Python e PySpark, garantindo alta eficiência nos processos de automação e integração de dados.
Alinhamento com as necessidades de negócio: Colaborar com as áreas demandantes para entender suas necessidades e garantir que as soluções de dados suportem os objetivos estratégicos da empresa.

O que você precisa ter:

Formação superior em Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas.
Experiência sólida em SQL, modelagem de dados e estruturas de bancos de dados.
Conhecimento avançado em Databricks, Airflow, Airbyte e Redshift.
Forte experiência com arquitetura e estruturação de Lakehouse.
Habilidade avançada em Python e PySpark para processamento e manipulação de dados.
Experiência com ambientes de nuvem (AWS, GCP, Azure), focado em processamento de grandes volumes de dados de forma eficiente e segura.

O que oferecemos:

Alimentação: R$ 1.200/mês em cartão flexível (Swile)
Família: home office 2x na semana, auxílio creche, seguro de vida
Desenvolvimento: ciclos de avaliação e feedback, auxílio educação para cursos e eventos, programas internos para aperfeiçoamento
Saúde: plano de saúde e odontológico extensivo para dependentes, plano de saúde pet
Bem-estar: benefícios para o corpo (TotalPass) e mente (Zenklub)
Transporte: vale-transporte ou estacionamento