Boa tarde, venho utilizando os dados do meu local de trabalho para aprendizado em datascience, para começar decidi criar um script para lançar um dos nossos relatórios. Para isso, meus colegas de trabalho começaram a lançar os dados da produtividade de cada um em uma tabela do excel. Contudo, mesmo combinando a forma como os dados seriam lançados existem pequenas diferenças em como cada um escreve certas palavras.
Por exemplo: no campo "Diagnóstico" do dataframe existe a opção de assinalar como "outros", mas essa palavra está sendo escrita de três formas diferentes a saber: "outros", "Outros" e "OUTROS". Esse "Diagnóstico" precisa estar em relação com uma outra coluna chamada "Etempo_em_trat", que é o tempo em tratamento do paciente, e esse tempo precisa ser menor que 30 dias. Pois só lançamos os diagnósticos dos pacientes novos. Eles tbm sabem que só precisam lançar os novos, mas registro fica lá...
quando eu uso o seguinte código: outros = dd[(dd.Diagnostico == 'outros') & (dd.Tempo_em_Trat < 30)]
sendo "dd" a variável que contem o DataFrame
ele seleciona apenas aqueles que tem o tempo de tratamento menor que 30
mas se eu coloco: outros = dd[(dd.Diagnostico == 'outros') | (dd.Diagnostico == 'Outros') | (dd.Diagnostico == 'OUTROS') & (dd.Tempo_em_Trat < 30)]
ele acaba selecionando todos os resultados, mesmo os que tem o tempo de tratamento maior que 30.
valeu pela atenção :)