Olá, Lucas! Tudo bem?
Neste caso a abordagem dependerá da frequência e da complexidade da extração. Se a sua tarefa de web scraping é recorrente e precisa ser integrada ao fluxo de ETL, a forma mais comum é utilizar uma Task do tipo PythonOperator para realizar o scraping e salvar os arquivos XML.
Usar um Hook faz sentido se você quiser organizar essa parte do código de um jeito que possa reutilizar em vários lugares, mas não é obrigatório. O importante é garantir que essa tarefa funcione bem dentro do seu processo de ETL.
Agora se o site tiver uma API para baixar os arquivos, talvez seja mais interessante usar isso em vez de web scraping, porque pode ser mais rápido.
Espero ter ajudado.
Qualquer dúvida, não hesite em compartilhar no fórum.
Abraços!
Caso este post tenha lhe ajudado, por favor, marcar como solucionado