1
resposta

Duplicação das entradas

A duplicação dos alunos em um mesmo curso veio da linha de código desenvolvida, salvo engano, na 2ª parte do curso.

for index, row in nomes.iterrows():

¬¬id = row.id_aluno

¬¬matriculas = row.matriculas

¬¬for i in range(matriculas):

¬¬¬¬mat = [id, np.random.choice(cursos.index, p = prob)]

¬¬¬¬todas_matriculas.append(mat)

Existe alguma forma de configurar o: np.random.choice(cursos.index, p = prob) ; para não duplicar o nome do curso no mesmo id do aluno?

1 resposta

Olá Lucas tudo bem com você???

Conforme a documentação técnica do Numpy para essa finalidade não.

O que pode ser feito é o tratamento dessas informações usando o pandas depois do join.

Para isso você pode utilizar:

df = df.drop_duplicates()

Ele irá varrer as linhas e retirar as repetidas.

Tem mais detalhes aqui na Documentação Pandas

O pandas é uma ótima biblioteca para o tratamento de dados.

Espero ter ajudado e caso ainda tenha dúvida pode retornar aqui =)