Pelo que eu entendi, você separa as linhas das features que possuem NAN e remove os NAN que, no nosso caso, estão na coluna alvo e usa os dados das features para criar novos dados para os NAN's removidos, é isso?
Pelo que eu entendi, você separa as linhas das features que possuem NAN e remove os NAN que, no nosso caso, estão na coluna alvo e usa os dados das features para criar novos dados para os NAN's removidos, é isso?
Oi William, tudo bem?
Na verdade, o processo não envolve diretamente a remoção de NaN da coluna alvo para criar novos dados. O pseudo-labeling é uma técnica usada principalmente quando você tem um conjunto de dados com poucos rótulos e muitos dados não rotulados.
Para deixar mais claro, abaixo deixo os passos de como o pseudo-labeling funciona:
Primeiro, você treina um modelo de machine learning usando apenas os dados que já têm rótulos. Então, você não remove ou substitui NaN na coluna alvo, mas sim utiliza os dados disponíveis que já estão rotulados.
Depois que o modelo inicial é treinado, ele é usado para prever rótulos para os dados que não têm rótulos (ou seja, os dados que têm NaN na coluna alvo). Esses rótulos preditos são chamados de pseudo-rótulos.
Em seguida, você combina os dados originais rotulados com os dados não rotulados, agora com seus pseudo-rótulos, para treinar um novo modelo. Esse novo conjunto de dados é maior e pode ajudar a melhorar o desempenho do modelo, pois está usando mais informações.
A ideia principal é usar o modelo inicial para "adivinhar" os rótulos dos dados não rotulados e, assim, aumentar o conjunto de dados de treinamento. Mas, é importante lembrar que os pseudo-rótulos podem não ser 100% precisos, e isso pode afetar o desempenho do modelo final.
O link acima está em inglês, mas você poderá utilizar a tradução automática do navegador
Espero ter ajudado.
Qualquer dúvida que surgir, compartilhe no fórum. Abraços e bons estudos!
então aquele dropna é referente ao primeiro treinamento?