[Projeto] Transcrição de Áudio em Texto com Whisper AI (OpenAI)

Transcrever áudios manualmente costumava ser uma tarefa demorada e cansativa. Hoje, com a Inteligência Artificial, ferramentas como a Whisper AI, da OpenAI (criadores do ChatGPT), permitem realizar transcrições rápidas, precisas e diretamente no navegador, utilizando o Google Collaboratory.

A seguir, veja o passo a passo completo para transcrever um áudio em texto utilizando o Whisper no Google Colab.
Pré-requisitos

Conta Google

Arquivo de áudio ou vídeo para transcrição

Acesso ao Google Drive

Passo a Passo
Criar um novo arquivo no Google Drive

Faça login no Google Drive;

Clique no botão “+ Novo”, no canto superior esquerdo.

Conectar mais aplicativos

Clique em “Mais” (última opção da lista);

Em seguida, clique em “Conectar mais apps”.

Instalar o Google Collaboratory

Na barra de busca (lupa), digite “Collaboratory”;

Instale o primeiro aplicativo exibido;

Clique em “Instalar”.

Integrar o Collaboratory à conta Google

Autorize o acesso clicando em “Continuar” quando solicitado.

Criar um notebook no Google Collaboratory

Volte ao Google Drive;

Clique em “+ Novo” → “Mais” → “Google Collaboratory”;

Um novo notebook será criado.

Configurar o ambiente de execução

No menu superior, clique em “Ambiente de execução”;

Selecione “Alterar o tipo de ambiente de execução”.

Ativar aceleração por GPU

Em “Acelerador de hardware”, escolha “T4 GPU”;

Clique em “Salvar”.

Importante: o uso de GPU acelera significativamente o processo de transcrição.

Instalar a Whisper AI

Na primeira célula de código, cole e execute os comandos abaixo:

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

Clique no botão : Executar à esquerda da célula.

Importar o arquivo de áudio ou vídeo

Clique no ícone de pasta (Arquivos) no menu lateral esquerdo;

Clique em “Adicionar arquivos” ou arraste o arquivo desejado.

Criar uma nova célula de código

Clique em “+ Código”
ou

Use o atalho Ctrl + M B

Executar a transcrição com Whisper

Na nova célula, digite o comando abaixo (ajustando o nome e o tipo do arquivo):

!whisper "nome_do_arquivo.extensao" --model medium

Exemplo:

!whisper "Gravação (4).m4a" --model medium

Executar e obter a transcrição

Clique em Executar;

A transcrição será processada automaticamente.

Resultados

O texto transcrito aparecerá:

Diretamente na saída da célula de código;

E também como arquivos gerados (TXT, SRT, VTT, entre outros) na aba “Arquivos” à esquerda.

Benefícios do Whisper AI
Alta precisão, inclusive em português
Processamento rápido com GPU
Suporte a múltiplos idiomas
Ideal para estudos, pesquisas, reuniões e produção de conteúdo

Importante

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP