Solucionado (ver solução)
Solucionado
(ver solução)
1
resposta

Por que o texto está vindo com caracteres especiais na hora da extração?

import numpy as np
import pytesseract as pt
import cv2 as cv

pt.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe' 
config_pytesseraac = "--tessdata-dir 'C:\\Program Files\\Tesseract-OCR\\tessdata'"

img = cv.imread("D:\\Bruno.maia\\source\\repos\\text-recognize\\Imagens\\Aula2-undersampling.png")
cv.imshow('',cv.cvtColor(img,cv.COLOR_BGR2RGB))

cv.waitKey(0) # ver a imagem visualmente

texto = pt.image_to_string(cv.cvtColor(img,cv.COLOR_BGR2RGB),lang='por',config=config_pytesseraac)
print(texto)

esse é o código que estou utilizando para extrair texto da imagem abaixo: Imagem de onde o texto será extraido

mesmo seguindo os passo a passo dao curso de 'visão computacional reconhecimento texto ocr opencv' o retorno do meu codigo é o seguinte:

**Undersªmpling

É umª técnicª que cºnsiste em mªnter tºdºs ºs dªdºs dª clªsse cºm menºr frequênciª e diminuir ª quªntidªde dºs que est㺠nª clªsse de mªiºr frequênciª, fªzendº cºm que ªs ºbservªções nº cºnjuntº pºssuªm dªdºs cºm ª vªriável ªlvº equilibrªdª. **

ele ao invés de vim as letras 'o' e 'a' vem respectivamente 'º' e 'ª', alguém sabe como solucionar esse problema ?

1 resposta
solução!

A solução era somente baixar o por.traineddata correto, tem vários, mas o ideal está nesse link.

https://github.com/tesseract-ocr/tessdata/blob/main/por.traineddata

Quer mergulhar em tecnologia e aprendizagem?

Receba a newsletter que o nosso CEO escreve pessoalmente, com insights do mercado de trabalho, ciência e desenvolvimento de software