Solucionado (ver solução)
Solucionado
(ver solução)
2
respostas

[Dúvida] Duvida sobre o preenchimento de um dataframe com valores nulos para uma análise de dados

Olá,

Gostaria de saber como devo proceder com o preenchimento do meu dataframe para a análises de dados na seguinte situação hipotética abaixo:

Situação:

Estou elaborando um dataframe com informações sobre pacientes que usam e não usam uma medicação para tratamento de uma doença, para isso, uma das colunas do dataframe conterá esta informação (resposta sim ou não).

Haverá diversas outras colunas com dados sobre a doença e** colunas exclusivas para registar informações sobre o modo de uso da medicação**.

Assim, as linhas de cada paciente do dataframe relativas às maneiras de uso da medicação só serão preenchidas pelos pacientes que reponderam "sim" na coluna de uso da medicação.

Isso resultará em valores NaN para todas as colunas contendo as características de uso da medicação apenas para os pacientes que reponderam "não" ao uso do medicamento.

Observação: Os registros dos pacientes estão na linha enquanto as informações relativas à doença dele e ao medicamento estão na coluna do dataframe.

Minha dúvida:

Deverei deixar os valores nulos no meu dataframe ou incluir algum tipo de dado (string, booleano ou numérico) que indique que os dados para aquele paciente naquela coluna não serão preenchidos?

2 respostas
solução!

Ei, Marina! Tudo bem?

Nesse caso, manter como NaN costuma ser totalmente aceitável, principalmente se você estiver trabalhando no Pandas. O NaN já é bem interpretado em análises estatísticas e não vai atrapalhar, desde que você filtre corretamente quando for analisar apenas os pacientes que usam a medicação.

Se preferir, você pode preencher os valores nulos com uma string como "Não Aplicável" ou um valor booleano como False para indicar que essas informações não se aplicam. Isso pode ser útil se você precisar exportar os dados para um sistema que não lida bem com NaN.

Sobre substituir por zero ou algum valor numérico “qualquer”, analise bem antes, porque isso pode distorcer análises futuras. Imagine calcular uma média de dosagem e, sem querer, incluir vários zeros de quem nem usa o medicamento.

Agora, existe uma alternativa mais estruturada dependendo do contexto do projeto: separar essas informações em outro dataframe (ou outra tabela, se fosse banco de dados), contendo apenas pacientes que usam a medicação. Isso evita colunas com muitos NaN e deixa o modelo mais organizado. Em ciência de dados e modelagem relacional, isso inclusive é bem comum.

Espero ter ajudado. Qualquer dúvida, compartilhe no fórum.

Até mais!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado

Obrigada pelas sugestões.
Agora ficou mais claro para mim.