1
resposta

Não apresenta mesmo resultado - Identificação de caractere em arquivo de imagem

Esta dúvida postei há um mês e não tive resposta do instrutor do curso:

Ao tentar utilizar a imagem Aula2-Saida.png, em nenhuma configuração do psm, consegui que fosse interpretado como SAÍDAS. Testei do --psm 2 até o --psm 13, e o mais próximo foi SS?, utilizando o --psm 7.

config_tesseract = '--tessdata-dir /usr/share/tesseract-ocr/4.00/tessdata --psm 7' texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract) print(texto).

Tentei mudar a versão do 4.00 para o 0.3.9: pytesseract.version '0.3.9'.

Mas não há outra versão disponível que não a 4.00: !sudo ls /usr/share/tesseract-ocr 4.00

Poderia me dizer o porquê disso e como resolver? Obrigado.

1 resposta

Olá José, tudo bem? Espero que sim!

Executei os comandos apresentados na aula e obtive o resultado: SAÍDAS, conforme o vídeo.

Cheque se fez a instalação da língua portuguesa e está usando a mesma imagem do curso. A imagem pode ser obtida a partir do github: https://github.com/alura-cursos/text-recognize/blob/main/Imagens/Aula2-Saida.png

O código completo para se chegar ao resultado no Google Colab:

!pip install opencv-python==4.6.0
!sudo apt install tesseract-ocr
!pip install pytesseract==0.3.9
import pytesseract
import numpy as np
import cv2 
from google.colab.patches import cv2_imshow 
!mkdir tessdata
!wget -O ./tessdata/por.traineddata https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata?raw=true
img = cv2.imread('/content/Aula2-Saida.png')
rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2_imshow(rgb)
config_tesseract = '--tessdata-dir tessdata --psm 7'
texto = pytesseract.image_to_string(rgb, lang='por', config=config_tesseract)
print(texto)

Resultado: SAÍDAS

Bons estudos!