No experimento inicial, as taxas 0.01, 0.05 , 0.1 e 0.5 causaram divergência, levando a loss para inf e depois nan. Isso indica que os passos de atualização foram grandes demais para a escala do problema. Já as taxas 0.0001 e 0.001 mantiveram estabilidade, sendo 0.001 a melhor entre elas por reduzir a loss mais rapidamente. Portanto, neste cenário, a taxa mais adequada foi aproximadamente 0.001.
E a conclusão da segunda versão, com ajuste:
Ao normalizar também o target, o treinamento se tornou mais estável e permitiu comparar melhor taxas de aprendizado maiores. Isso mostra que a escolha do learning rate depende diretamente da escala dos dados, da função de perda e da arquitetura usada.
Para perfeita compreensão do que eu falei eu vou anexar aqui o link do meu git com o código que eu desenvolvi no Collab, Respeitosamente:
https://github.com/Moquiuti/Rede-Neural-Deep-Learning-com-PyTorch/blob/main/Otimiza%C3%A7%C3%A3o_e_Taxa_de_Aprendizado.ipynb