[Dúvida] Pipeline NLP | Spark: processamento de linguagem natural

Olá Vinícius, tudo bem?

As etapas de eliminação de pontuação, espaços em branco são realizadas com a .withColumn que faz uma transformação direta em um objeto específico, no nosso caso a base de dados dados, isso dificulta a padronização dos processos dentro de um pipeline.

Existe uma limitação também em relação as classes utilizadas nos estágios do pipeline, na documentação do spark o pipeline é executado somente com classes que tenham fit e transform como métodos, as quais não são encontrados com em .withColumn, regexp_replace e trim utilizadas aqui.

Por essas razões não é possível inserir essas etapas diretamente no pipeline, o ideal é realizar as transformação que utilizam pyspark.sql.functions antes do pipeline. Pesquisando aqui, encontrei uma solução alternativa de uma implementação mais complexa, nesse artigo do medium o autor mostra que é possível criar uma classe que herdará o método de pipelines do spark e adiciona funções nessa nova classe para que seja incorporado como uma etapa do pipeline, mas eu confesso que essa última etapa eu não testei e deixei aqui como referência para seus estudos.

Espero ter ajudado. bons estudos ;)