1
resposta

[Bug] Error Category: IMPORT_ERROR; Failed Line Number: 7; ModuleNotFoundError: No module named 'gs_regex_extract'

O script gerado pela propria aws não consegue localizar a dependência do regex "import gs_regex_extract"

Já até iniciei um novo job para verificar como fica a importação nele no script e é a mesma coisa

Matricule-se agora e aproveite até 50% OFF

O maior desconto do ano para você evoluir com a maior escola de tecnologia

QUERO APROVEITAR
1 resposta

Eu, Gustavo! Tudo bem?

O erro indica que o AWS Glue não está encontrando o módulo gs_regex_extract, e isso acontece quando o script gerado tenta importar uma biblioteca que não existe no ambiente padrão do Glue.

No Glue, só é possível importar módulos que:

  • Já fazem parte do ambiente nativo do Glue;
  • Ou você adiciona manualmente via Python Wheel, arquivo .zip ou AWS Glue Libraries no Job.

Neste ponto, o módulo gs_regex_extract não faz parte do ambiente padrão, então o Glue não consegue carregá-lo.

Uma sugestão é substituir a função customizada por um regex nativo usando PySpark:


from pyspark.sql import functions as F

df = df.withColumn(
    "resultado",
    F.regexp_extract(F.col("mensagem"), "padrao_regex", 1)
)

Ou, remover a importação externa:

  • Vá para a aba "Script" do seu Job no Glue Studio.

  • Localize e remova ou comente a linha que faz a importação.

  • O Glue Studio, ao rodar o Job, muitas vezes consegue injetar a funcionalidade regex diretamente na execução do Job Spark, mesmo sem a importação explícita aparecer no script gerado. O erro de importação aparece porque, no seu ambiente, a biblioteca não está acessível no path padrão do Python no momento da geração do script.

Espero ter ajudado. Conte com o apoio do Fórum na sua jornada. Fico à disposição.

Conteúdos relacionados
Caso este post tenha lhe ajudado, por favor, marcar como solucionado