3
respostas

Duvida ao usar dataframe.

Olá, tudo bem? estou buscando resolver um case, cuja planilhas ja são fornecidas (teste e treino). Porém, ao usar o metodo da aula, ele não permite o uso do dataframe, aceita somente arrays, o que posso fazer nessa situação?

3 respostas

Olá, Tulio! Tudo bem com você?

Você consegue fornecer mais detalhes sobre o problema, como um print da tela de erro, o método que está apresentando problemas, como estão divididos seus dados de treino e teste, ou até mesmo seu notebook (você pode upar no google drive e mandar o link, caso seja possível)?

Na aula 5 (recomendo que você assista todas as aulas antes de assistir a mencionada, te ajudará a compreender melhor o que está sendo passado) desse mesmo curso o instrutor utiliza os mesmos métodos apresentados na aula que você postou a dúvida, porém utilizando DataFrames, veja se assistindo essa aula te ajuda a solucionar o problema.

Fico no aguardo.

Abraços.

Boa tarde Bruno, tudo bem? Então, assisti todo o treinamento, inclusive gostei bastante. A minha dúvida é o seguinte. Tenho 2 planilhas excel. Uma planilha treino e uma planilha teste. Em minha planilha treino, tenho uma coluna que contem se é 1 ou 0. Na minha planilha teste, não tenho a coluna, teria que estimar no caso. Se eu utilizasse somente a planilha treino, conseguiria colocar pra rodar o modelo, tudo certo. Porém como minha tarefa é estimar esse valor de Y da planilha teste, não sei como fazer essa previsão e a sua acurácia.

Olá, Tulio! Tudo bem com você?

A divisão entre treino e teste é realizada no conjunto completo de dados, como estamos trabalhando com modelo supervisionado, tanto o treino quanto o teste devem possuir as labels (ou variável target) que é a resposta se foi vendido ou não, se é cachorro ou porco e assim por diante. Essa divisão é justamente para analisar como o modelo está se comportando, pois o conjunto de teste é uma "simulação" de dados nunca vistos pelo modelo e com isso analisamos de acordo com a porcentagem de respostas certas com a acurácia (quantidade de itens com saldo correto / quantidade de itens verificados x 100). Esse é o motivo que não permite você calcular a acurácia para o conjunto de dados que você está chamando de teste, pois você não possui as respostas corretas para realizar o cálculo.

A forma mais "correta" de realizar a divisão do seu conjunto de dados é dividir em treino e teste o que você chamando de treino e executar o treinamento e teste do seu modelo (como descrito nas aulas). Feito esse passo, agora é possível realizar a previsão em seu conjunto de dados denominado teste, pois seu modelo já está treinado e você sabe o quão bom ele é. No entanto não é possível obter a acurácia para esse último dataset que você possui pelo motivo citado anteriormente de não haver a variável target para realização do cálculo da acurácia. A previsão é realizada com o método .predict(), como é feito na aula 5 e é retornado um array com a previsão para seu conjunto de dados.

Como recomendação, sugiro que você continue seguindo a formação de machine learning, mais a frente você aprenderá como lidar melhor com essa divisão e como realizar a validação do seu modelo.

Espero ter ajudado, mas se ainda persistir alguma dúvida estou à disposição inclusive no discord da Alura, caso queira me chamar por lá.

:)

Caso este post tenha lhe ajudado, por favor, marcar como solucionado ✓.Bons Estudos!

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software