Acho muito importante seguir o roteiro de projeto sugerido no curso, mas acho importante também tentarmos configurações diferentes da proposta no curso.
Tenho minha conta AWS a bastante tempo, e não estou mais no período de free tier da EC2. Então por questões financeiras decidi subir um cluster ECS para instâncias t2.nano ao invés de usar a t2.micro proposta no curso.
Quando ia tentar rodar uma tarefa autônoma (sem serviço ECS), eu recebia o seguinte erro no console AWS: "The container GPU must be an integer between 1 and 16". Sugerindo que meu container não tinha a quantidade de GPU necessária. Pois é, um erro relacionado a GPU!!
O erro aparecia dentro do console AWS (um toast), e por conta desse problema, o grupo de logs no CloudWatch não era criado. Ou seja, eu tinha apenas a mensagem do console AWS como referência. E detalhe o cluster ficava tentando provisionar a tarefa durante muuuuito tempo, e o erro apareceu no console um bom tempo depois. Segundo detalhe, as instâncias EC2 estavam executando, com status "Running".
Como podem ver, muitos erros, e tudo muito confuso. Então somente depois de muuuuita pesquisa, acabei descobrindo que o erro na verdade estava relacionada a instância t2.nano, que não tinha recursos suficientes para a tarefa. Nada relacionado com o GPU, o problema na verdade era a quantidade de vCPU e memória insuficientes.
A solução foi apenas criar um novo cluster ECS mas agora para instâncias t2.micro.
Essa pequena mudança me levou muito tempo de pesquisa para entender e pude conhecer melhor o serviço dessa maneira. Sair do roteiro pode ser ótimo para adquirir mais conhecimentos, e enfrentar problemas reais.