import numpy as np
import pytesseract as pt
import cv2 as cv
pt.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
config_pytesseraac = "--tessdata-dir 'C:\\Program Files\\Tesseract-OCR\\tessdata'"
img = cv.imread("D:\\Bruno.maia\\source\\repos\\text-recognize\\Imagens\\Aula2-undersampling.png")
cv.imshow('',cv.cvtColor(img,cv.COLOR_BGR2RGB))
cv.waitKey(0) # ver a imagem visualmente
texto = pt.image_to_string(cv.cvtColor(img,cv.COLOR_BGR2RGB),lang='por',config=config_pytesseraac)
print(texto)
esse é o código que estou utilizando para extrair texto da imagem abaixo:
mesmo seguindo os passo a passo dao curso de 'visão computacional reconhecimento texto ocr opencv' o retorno do meu codigo é o seguinte:
**Undersªmpling
É umª técnicª que cºnsiste em mªnter tºdºs ºs dªdºs dª clªsse cºm menºr frequênciª e diminuir ª quªntidªde dºs que est㺠nª clªsse de mªiºr frequênciª, fªzendº cºm que ªs ºbservªções nº cºnjuntº pºssuªm dªdºs cºm ª vªriável ªlvº equilibrªdª. **
ele ao invés de vim as letras 'o' e 'a' vem respectivamente 'º' e 'ª', alguém sabe como solucionar esse problema ?