pytesSeract OCR con reconocimiento de un solo dígito y restricciones numéricas
en el contexto de pytasseract, configurando el tesseract para reconocer dígitos individuales y restringir el resultado a los números puede ser desafiante. Para abordar este problema, profundizamos en los detalles de las opciones de configuración de Tesseract.
Tesseract Page Segmentation modes
tesseract ofrece varios modos de segmentación de páginas (PSM) para manejar diversos diseños de texto. Para el reconocimiento de caracteres únicos, el PSM apropiado es 10. Este modo trata la imagen como un solo carácter.
caracteres Whitelist
para limitar los caracteres reconocidos a los números, podemos aprovechar el parámetro de configuración tessedit_char_whitelist. Al especificar 0123456789 como el Whitelist, Tesseract aceptará solo estos caracteres.
muestre cajas = falso, config = '-PSM 10 --OEM 3 -C TESTIT_CHAR_WHITELIST = 0123456789')
configurando PSM en 10 y usando la lista blanca de caracteres, esta configuración garantiza que Tesseract reconozca dígitos únicos mientras limita la salida a los valores numéricos. Además, Lang especifica el lenguaje, los cuadros deshabilitan los límites del cuadro de texto y OEM selecciona el motor OCR.Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.
Copyright© 2022 湘ICP备2022001581号-3