1
resposta

Solução para a questao

Acho que dado o problema a melhor solução seria excluir a coluna 'Detectado a mais de 6 meses?' e remover a pessoa do banco que tem o valor faltante para a pergunta 'Histórico familiar?' ou entrar em contato com ela/familiares e tentar perguntar se há o histórico familiar. Não seria muito adequado preencher um valor com uma informação que não é sabida. Acredito que seja melhor ser mais rigoroso na formação do banco do que ser muito permissivo.

1 resposta

Olá Daniel! Tudo tranquilo?

Primeiramente gostaria de pedir desculpas pela demora em te responder.

Sua abordagem também está correta. A solução de entrar em contato com a pessoa ou familiares é a melhor solução.

Mas caso não seja possível o contato, há várias formas de se tratar dados faltantes, falei de algumas aqui nessa outra resposta. Quando a coluna possui muito mais dados faltantes que dados imputados, então é uma boa prática remover tal coluna, visto que não nos traz muita informação. Mas quando a coluna possui apenas um dado faltante, como no caso da coluna Histórico familiar?, é preferível que faça alguma análise estatística e impute algum valor para não perder outras informações. Na coluna Histórico familiar? há uma forte tendência que esse valor seja 1, analisando os outros valores das amostras nessa coluna. Por exemplo, removendo a amostra que possui o histórico familiar faltante estaríamos perdendo outras duas informações: "Tumor maior que 5 cm?” e “Região do tumor dolorida?'', que podem ser importantes na construção do modelo.

Espero ter ajudado, mas se tiver alguma dúvida estou sempre à disposição.

:)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!