Olá, tudo bem? estou buscando resolver um case, cuja planilhas ja são fornecidas (teste e treino). Porém, ao usar o metodo da aula, ele não permite o uso do dataframe, aceita somente arrays, o que posso fazer nessa situação?
Você está vendo a versão anterior da nova experiência da Alura que estamos preparando para você. Em breve, ela ganha uma identidade visual novinha totalmente pensada em potencializar seus estudos!
Olá, tudo bem? estou buscando resolver um case, cuja planilhas ja são fornecidas (teste e treino). Porém, ao usar o metodo da aula, ele não permite o uso do dataframe, aceita somente arrays, o que posso fazer nessa situação?
Olá, Tulio! Tudo bem com você?
Você consegue fornecer mais detalhes sobre o problema, como um print da tela de erro, o método que está apresentando problemas, como estão divididos seus dados de treino e teste, ou até mesmo seu notebook (você pode upar no google drive e mandar o link, caso seja possível)?
Na aula 5 (recomendo que você assista todas as aulas antes de assistir a mencionada, te ajudará a compreender melhor o que está sendo passado) desse mesmo curso o instrutor utiliza os mesmos métodos apresentados na aula que você postou a dúvida, porém utilizando DataFrames, veja se assistindo essa aula te ajuda a solucionar o problema.
Fico no aguardo.
Abraços.
Boa tarde Bruno, tudo bem? Então, assisti todo o treinamento, inclusive gostei bastante. A minha dúvida é o seguinte. Tenho 2 planilhas excel. Uma planilha treino e uma planilha teste. Em minha planilha treino, tenho uma coluna que contem se é 1 ou 0. Na minha planilha teste, não tenho a coluna, teria que estimar no caso. Se eu utilizasse somente a planilha treino, conseguiria colocar pra rodar o modelo, tudo certo. Porém como minha tarefa é estimar esse valor de Y da planilha teste, não sei como fazer essa previsão e a sua acurácia.
Olá, Tulio! Tudo bem com você?
A divisão entre treino e teste é realizada no conjunto completo de dados, como estamos trabalhando com modelo supervisionado, tanto o treino quanto o teste devem possuir as labels (ou variável target) que é a resposta se foi vendido ou não, se é cachorro ou porco e assim por diante. Essa divisão é justamente para analisar como o modelo está se comportando, pois o conjunto de teste é uma "simulação" de dados nunca vistos pelo modelo e com isso analisamos de acordo com a porcentagem de respostas certas com a acurácia (quantidade de itens com saldo correto / quantidade de itens verificados x 100). Esse é o motivo que não permite você calcular a acurácia para o conjunto de dados que você está chamando de teste, pois você não possui as respostas corretas para realizar o cálculo.
A forma mais "correta" de realizar a divisão do seu conjunto de dados é dividir em treino e teste o que você chamando de treino e executar o treinamento e teste do seu modelo (como descrito nas aulas). Feito esse passo, agora é possível realizar a previsão em seu conjunto de dados denominado teste, pois seu modelo já está treinado e você sabe o quão bom ele é. No entanto não é possível obter a acurácia para esse último dataset que você possui pelo motivo citado anteriormente de não haver a variável target para realização do cálculo da acurácia. A previsão é realizada com o método .predict(), como é feito na aula 5 e é retornado um array com a previsão para seu conjunto de dados.
Como recomendação, sugiro que você continue seguindo a formação de machine learning, mais a frente você aprenderá como lidar melhor com essa divisão e como realizar a validação do seu modelo.
Espero ter ajudado, mas se ainda persistir alguma dúvida estou à disposição inclusive no discord da Alura, caso queira me chamar por lá.
:)