[Dúvida] Duvida sobre o preenchimento de um dataframe com valores nulos para uma análise de dados

Solucionado (ver solução)

Importante

Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!

Solucionado
(ver solução)

2
respostas

Referente ao curso Pandas: limpeza e tratamento de dados, no capítulo Utilizando dados duplicados e nulos e atividade Identificando e substituindo dados nulos

por Marina Falcão de Souza Cartaxo

| 26.9k xp | 21 posts

Olá,

Gostaria de saber como devo proceder com o preenchimento do meu dataframe para a análises de dados na seguinte situação hipotética abaixo:

Situação:

Estou elaborando um dataframe com informações sobre pacientes que usam e não usam uma medicação para tratamento de uma doença, para isso, uma das colunas do dataframe conterá esta informação (resposta sim ou não).

Haverá diversas outras colunas com dados sobre a doença e** colunas exclusivas para registar informações sobre o modo de uso da medicação**.

Assim, as linhas de cada paciente do dataframe relativas às maneiras de uso da medicação só serão preenchidas pelos pacientes que reponderam "sim" na coluna de uso da medicação.

Isso resultará em valores NaN para todas as colunas contendo as características de uso da medicação apenas para os pacientes que reponderam "não" ao uso do medicamento.

Observação: Os registros dos pacientes estão na linha enquanto as informações relativas à doença dele e ao medicamento estão na coluna do dataframe.

Minha dúvida:

Deverei deixar os valores nulos no meu dataframe ou incluir algum tipo de dado (string, booleano ou numérico) que indique que os dados para aquele paciente naquela coluna não serão preenchidos?

2 respostas

solução!

por NATHALIA QUEIROZ

| 4568.5k xp | 10290 posts

Alura Scuba Team

26/02/2026

Ei, Marina! Tudo bem?

Nesse caso, manter como NaN costuma ser totalmente aceitável, principalmente se você estiver trabalhando no Pandas. O NaN já é bem interpretado em análises estatísticas e não vai atrapalhar, desde que você filtre corretamente quando for analisar apenas os pacientes que usam a medicação.

Se preferir, você pode preencher os valores nulos com uma string como "Não Aplicável" ou um valor booleano como False para indicar que essas informações não se aplicam. Isso pode ser útil se você precisar exportar os dados para um sistema que não lida bem com NaN.

Sobre substituir por zero ou algum valor numérico “qualquer”, analise bem antes, porque isso pode distorcer análises futuras. Imagine calcular uma média de dosagem e, sem querer, incluir vários zeros de quem nem usa o medicamento.

Agora, existe uma alternativa mais estruturada dependendo do contexto do projeto: separar essas informações em outro dataframe (ou outra tabela, se fosse banco de dados), contendo apenas pacientes que usam a medicação. Isso evita colunas com muitos NaN e deixa o modelo mais organizado. Em ciência de dados e modelagem relacional, isso inclusive é bem comum.

Espero ter ajudado. Qualquer dúvida, compartilhe no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

por Marina Falcão de Souza Cartaxo

| 26.9k xp | 21 posts

26/02/2026

Obrigada pelas sugestões.
Agora ficou mais claro para mim.

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Importante

Tópicos relacionados

Conteúdos Alura com o tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP