Eng de Dados
📚 Plano de Estudos - Engenharia de Dados
Organizado do Iniciante ao Avançado
🌱 NÍVEL 1: FUNDAMENTOS (Iniciante)
Objetivo: Construir a base técnica essencial
1️⃣ Praticando Python
Por quê primeiro? Python é a linguagem #1 em 95% das vagas. Sem dominar Python, você não avança.
O que focar:
Estruturas de dados (listas, dicionários, sets)
Funções e programação orientada a objetos
Manipulação de arquivos
Bibliotecas básicas (pandas, numpy)
2️⃣ Boas práticas em Python
Por quê agora? Antes de aprender frameworks complexos, você precisa escrever código limpo e profissional.
O que focar:
PEP 8 e convenções
Type hints
Tratamento de erros
Testes unitários básicos
Git/GitHub
3️⃣ Conhecendo SQL
Por quê neste momento? SQL aparece em 90% das vagas. É impossível ser engenheiro de dados sem dominar SQL.
O que focar:
SELECT, WHERE, JOIN
Agregações (GROUP BY, HAVING)
Subqueries
CTEs (Common Table Expressions)
4️⃣ Praticando SQL
Por quê sequencialmente? Prática consolida o conhecimento. SQL precisa virar segunda natureza.
O que focar:
Queries complexas
Performance e índices
Análise de planos de execução
Exercícios práticos
🔧 NÍVEL 2: INTERMEDIÁRIO (Construindo Conhecimento Técnico)
Objetivo: Dominar ferramentas e tecnologias core
5️⃣ Microsoft SQL Server 2022
Por quê agora? Com SQL básico dominado, você precisa conhecer um SGBD específico. SQL Server aparece em 30% das vagas.
O que focar:
Administração básica
T-SQL específico
Stored procedures
Backup e recovery
6️⃣ Modelagem de dados
Por quê neste ponto? Com Python e SQL na bagagem, você está pronto para entender como estruturar dados. Aparece em 80% das vagas.
O que focar:
Modelagem dimensional (Star Schema, Snowflake)
Normalização vs Desnormalização
Modelagem para Analytics
Data Vault (conceitos)
7️⃣ Data Warehouse com Data Lake e SQL Server
Por quê esta sequência? Agora você une modelagem + SQL + conceitos de armazenamento. DW aparece em 45% das vagas.
O que focar:
Arquitetura Data Warehouse
Conceitos de Data Lake
ETL vs ELT
Dimensões SCD (Slowly Changing Dimensions)
🚀 NÍVEL 3: AVANÇADO (Ferramentas Profissionais)
Objetivo: Dominar as tecnologias mais demandadas do mercado
8️⃣ Apache Spark com Python
Por quê agora? Com fundamentos sólidos, você está pronto para Big Data. PySpark aparece em 75% das vagas e é ESSENCIAL.
O que focar:
RDDs, DataFrames, Datasets
Transformações e ações
Spark SQL
Performance tuning
9️⃣ Primeiros passos com Engenharia de Dados
Por quê aqui? Momento de consolidar tudo e entender o papel completo do Engenheiro de Dados.
O que focar:
Arquitetura de pipelines
Batch vs Streaming
Data Quality
Conceitos de observabilidade
🔟 AWS Data Lake: construindo pipelines na AWS
Por quê AWS agora? Cloud aparece em 90% das vagas, e AWS lidera com 50%. É hora de aprender cloud na prática.
O que focar:
S3, Glue, Athena
Lambda para processamento
EMR (Spark na AWS)
Lake Formation
1️⃣1️⃣ Engenharia de dados com Databricks
Por quê Databricks neste momento? Aparece em 55% das vagas e está se tornando O PADRÃO da indústria. É sua arma principal.
O que focar:
Unity Catalog
Delta Lake
Databricks Workflows
SQL Warehouses
Delta Live Tables
1️⃣2️⃣ Apache Airflow
Por quê após Databricks? Orquestração aparece em 60% das vagas. Com pipelines dominados, você precisa orquestrá-los.
O que focar:
DAGs (Directed Acyclic Graphs)
Operators e Sensors
Scheduling
Monitoramento
Integração com Databricks/AWS
🎯 NÍVEL 4: ESPECIALIZAÇÃO (Diferenciais de Mercado)
Objetivo: Se destacar no mercado
1️⃣3️⃣ Fundamentos de Governança de Dados
Por quê governança agora? Vagas sênior exigem isso. Você precisa garantir qualidade, segurança e compliance.
O que focar:
LGPD/GDPR
Data Catalog
Linhagem de dados
Políticas de acesso
Data Quality frameworks
1️⃣4️⃣ Data Warehouse com Data Marts e Power BI
Por quê por último? Você já domina o backend. Agora aprende a entregar valor para o negócio via BI (35% das vagas mencionam BI).
O que focar:
Construção de Data Marts
Integração DW → BI
Power BI (DAX, modelagem)
Self-service analytics
📊 RESUMO DO ROADMAP
FASE 1: FUNDAMENTOS (1-3 meses)
└─ Python → Boas Práticas → SQL → Prática SQL
FASE 2: INTERMEDIÁRIO (2-4 meses)
└─ SQL Server → Modelagem → Data Warehouse
FASE 3: AVANÇADO (4-6 meses)
└─ Spark → Engenharia de Dados → AWS → Databricks → Airflow
FASE 4: ESPECIALIZAÇÃO (2-3 meses)
└─ Governança → Data Marts & BI
💡 DICAS IMPORTANTES
⚠️ NÃO pule etapas!
Cada curso prepara você para o próximo. Pular fundamentos vai te prejudicar depois.
✅ Perfil Júnior - Após Fase 1 e 2 (3-7 meses) ✅ Perfil Pleno - Após Fase 3 (7-13 meses)
✅ Perfil Sênior - Após Fase 4 + projetos + experiência (13-16 meses de estudo)