1
resposta

[Dúvida] Como tratar extração de dados via Web Scraping

Olá, tudo bem?

Estou lidando com um projeto ETL onde devo fazer web scraping de um site para extrair arquivos xml. Devo tratar essa execução como um hook? Existe outro forma melhor para tratar esse tipo de tarefa no Apache Airflow?

Obrigado pela atenção.

1 resposta

Olá, Lucas! Tudo bem?

Neste caso a abordagem dependerá da frequência e da complexidade da extração. Se a sua tarefa de web scraping é recorrente e precisa ser integrada ao fluxo de ETL, a forma mais comum é utilizar uma Task do tipo PythonOperator para realizar o scraping e salvar os arquivos XML.

Usar um Hook faz sentido se você quiser organizar essa parte do código de um jeito que possa reutilizar em vários lugares, mas não é obrigatório. O importante é garantir que essa tarefa funcione bem dentro do seu processo de ETL.

Agora se o site tiver uma API para baixar os arquivos, talvez seja mais interessante usar isso em vez de web scraping, porque pode ser mais rápido.

Espero ter ajudado.

Qualquer dúvida, não hesite em compartilhar no fórum.

Abraços!

Caso este post tenha lhe ajudado, por favor, marcar como solucionado