O script gerado pela propria aws não consegue localizar a dependência do regex "import gs_regex_extract"
Já até iniciei um novo job para verificar como fica a importação nele no script e é a mesma coisa
O script gerado pela propria aws não consegue localizar a dependência do regex "import gs_regex_extract"
Já até iniciei um novo job para verificar como fica a importação nele no script e é a mesma coisa
Eu, Gustavo! Tudo bem?
O erro indica que o AWS Glue não está encontrando o módulo gs_regex_extract, e isso acontece quando o script gerado tenta importar uma biblioteca que não existe no ambiente padrão do Glue.
No Glue, só é possível importar módulos que:
Neste ponto, o módulo gs_regex_extract não faz parte do ambiente padrão, então o Glue não consegue carregá-lo.
Uma sugestão é substituir a função customizada por um regex nativo usando PySpark:
from pyspark.sql import functions as F
df = df.withColumn(
"resultado",
F.regexp_extract(F.col("mensagem"), "padrao_regex", 1)
)
Ou, remover a importação externa:
Vá para a aba "Script" do seu Job no Glue Studio.
Localize e remova ou comente a linha que faz a importação.
O Glue Studio, ao rodar o Job, muitas vezes consegue injetar a funcionalidade regex diretamente na execução do Job Spark, mesmo sem a importação explícita aparecer no script gerado. O erro de importação aparece porque, no seu ambiente, a biblioteca não está acessível no path padrão do Python no momento da geração do script.
Espero ter ajudado. Conte com o apoio do Fórum na sua jornada. Fico à disposição.