lunes, 29 de mayo de 2023

TCA ConvertDoc 1.4, hazle OCR a PDF de gran tamañño!

Links actualizados: enero 2024:

Hola gente, ¿qué tal les va?

Muy atentos. Hoy les comparto la actualización de mi programa para convertir entre formatos de documentos: TCA ConvertDoc, que llega a la versión 1.4, restructurado y muy mejorado sobre todo en OCR. ,

Antes, para quienes no lo conozcan:

¿Qué es TCA ConvertDoc?

es una pequeña utilidad (Windows) portable, gratuito, desarrollada en el lenguaje de programación: Python

Cuenta con una interfaz 100% accesible, con atajos de teclado.

Nos permite convertir entre formatos de documentos: doc, docx, RTF, epub, pdf, HTML, odt, txt, markdown, PNG, JPG (OCR), Y: PPTx. De una forma sencilla, directa y accesible.

También: TCA ConvertDoc puede reconocer imágenes en formato png, archivos PDF jpg y pasarlas al formato TXT (haciéndoles un Reconocimiento óptico de Caracteres u OCR).

Convertir documentos, nunca fue más sencillo, no solo de forma individual lo vamos a poder realizar;

TCA ConvertDoc también nos permite convertir por lotes, es decir, vamos a poder agregar toda una carpeta, y en segundos tendremos todos los archivos convertidos al formato escogido, todos de una sola vez.

 

Novedades en: TCA ConvertDoc 1.4:

• Selección de motor OCR:

En TCA ConvertDoc 1.4 podremos seleccionar ahora en la interfaz principal, desde un cómodo cuadro combinado el motor OCR que deseamos utilizar;

Podemos optar por:

Tesseract: es el motor OCR por defecto.

LTSM: es otro motor OCR que viene incorporado en el paquete Tesseract, que puede dar mejores resultados. En su contra, se dice que puede ser un tanto más lento.

 

• Selección de idioma del OCR:

También ahora podremos escoger el idioma En el que deseamos realizar el reconocimiento óptico de caracteres (OCR). Por ahora solo contamos con 3 idiomas:

Español: es el idioma seleccionado por defecto.

Inglés.

Italiano.

Los podemos escoger desde el cuadro combinado: “Lenguaje del OCR” que se encuentra en la interfaz principal.

 

• TCA ConvertDoc 1.4 puede hacer OCR a PDFs de gran tamaño:

Se optimizó el reconocimiento óptico de caracteres, para archivos PDF de gran tamaño (con muchas páginas). Ahora la conversión se realiza sin problemas, y lo hace más rápido que la versión anterior.

 

• TCA ConvertDoc 1.4 informará de errores:

Ahora si el programa detecta que sucede o encuentra cualquier error, lo informará en una ventana de diálogo, con lo que se facilita saber el porqué del error.

 

• Se añadió la traducción a los  idiomas inglés y turco:

Ahora TCA ConvertDoc, soporta el idioma inglés y el turco, aparte del italiano y español de la versión anterior.

 

• Atajos de teclado en la interfaz principal:

Ahora contamos con atajos de teclado para llegar rápidamente a los controles de la interfaz principal:

Escoja (Alt+E).

Lenguaje del OCR (Alt+L)

Motor OCR (Alt+M).

Y el que ya teníamos: Convertir (Alt+C).

 

• Se actualizó Tesseract.

El motor OCR Tesseract, se actualizó a su última versión. También la librería: Pytesseract.

 

• Restructurado todo el código de TCA ConvertDoc:

Todo el código ha sido restructurado, optimizado, corregido y mejorado. Algunas conversiones no funcionaban de forma correcta.

Aparte ahora está basado en Python 3.11 con lo que se potencia el programa.

 

Compatibilidad de TCA ConvertDoc 1.4.

El programa es compatible con Windows del 7 en adelante, y tiene versiones para 32 y 64 bits por separado.

Para los sistemas anteriores al 7, donde no les funcione, es probable que deban instalar las librerías: Netframework 4.5 o superior, y Visual Estudio.

En la descarga estarán.

 

Tutorial: TCA ConvertDoc 1.4.

Les he grabado una corta audio demostración con las últimas novedades del programa.

Les mostraré:

• Breve recorrido y muestra de los nuevos controles en la interfaz principal.

• Muestra breve del lenguaje inglés.

• Muestra breve de los controles de selección de Idioma del OCR, y Motor OCR.

• Muestra de lo que sucede ahora cuando TCA ConvertDoc detecta un error en la conversión.

• Mostraré la conversión de un archivo PDF de 100 páginas, a TXT (OCR).

 

La descarga:

Les dejaré en la descarga:

• El audio tutorial (en los canales Odysse y YouTube estará en video tutorial).

• El programa: TCA ConvertDoc 1.4 para 32 bits.

• El programa: TCA ConvertDoc 1.4 para 64 bits.

• Y las librerías: Netframework y Visual estudio C++ (en un solo archivo zip).

 

Espero lo disfruten y les sea de mucha utilidad.

El programa cada vez es más potente, ahora con el OCR optimizado en los archivos PDF , pudiendo convertir archivos grandes.

Con todas las correcciones y mejoras, que lo hacen cada vez mejor.

También les debo decir que la IA (inteligencia artificial)ChatGPT, me ha ayudado mucho en esta versión.

Desde aquí sigo agradeciendo a todos y cada uno de quienes me han dado sugerencias, así como a quienes lo han estado probando.

 

 

Y ya sabes, Si te gusta este contenido,

compártelo en: Facebook, Twitter.

Deja un comentario sobre esta entrada.

Síguenos en Twitter:

Abajo tienes el botón.

Suscríbete al blog:

Ahora puedes unirte a nuestro grupo de WhatsApp:

El grupo casi está al límite, puedes escribir al mail del blog con tus datos si deseas ingresar al mismo.

O a nuestro grupo en Telegram,

Ya tenemos grupo oficial en esta red social, y es administrado por Tecnoconocimiento Accesible, aquí encontrarás el link al grupo oficial:

¡Únete a nuestro grupo oficial en Telegram!

Escucha todos nuestros audio tutoriales, cómodamente:

Entrando desde aquí, a nuestro canal en YouTube.

Ahora también, en nuestro canal en Odysse:

Entra al canal de Tecnoconocimiento Accesible en Odysse.

O si prefieres escúchanos en:

Anchor:

Escúchanos en Anchor.

Ponte en contacto con nosotros, déjanos tus sugerencias, dudas, o comentarios,

abajo tienes un sencillo formulario,

o si lo prefieres,

 escríbenos al correo del blog:

tecnoconocimientoaccesible@gmail.com

Los aportes siempre serán bienvenidos.

cuando nos escribas por uno de los medios con alguna sugerencia, se publicará con tu nombre.

además, como ya se sabe, puedes publicar esta entrada en otro sitio, pero no te olvides citar la fuente.

Saludos, y hasta otro post.

 

Descarga aquí el tutorial.

 

 

Descarga aquí el programa para 32 bits.

 

Descarga aquí el programa para 64 bits.

 

Descarga aquí las librerías.

12 comentarios:

  1. Hola tecnoconocimientoaccesible.
    Gracias por actualizar el programa, si no estoy mal, creo que la última versión que se había publicado, hasta hoy era en el año 2021.
    Hoye, creo que deberías añadir la opción de convertir pdfs en pdf con capacidad de búsqueda, no sé si la tenga.
    Saludos

    ResponderEliminar
    Respuestas
    1. hola
      no la tiene
      pero sí, tienes razón es una buena opción
      voy a intentar dentro de mis posibilidades como crearlo a pdf otra vez saludos

      Eliminar
  2. Gracias amigo.
    sOtra inquietud referente a estos formatos.
    ¿Porqué hay algunas presentaciones de power point que no se pueden leer con lectores de pantalla?
    ¿Se puede usar también el OCR para leerlas?

    ResponderEliminar
    Respuestas
    1. la verdad no estoy al 100% seguro, no me ha tocado ninguna así aún.
      pero me parece sí, existen algunas que están digitalizadas, como imágen nada más.
      saludos

      Eliminar
  3. saludos, se agradece tu esfuerzo y que sigas con esto de crear y mejorar los programas que has creado, que todos son útiles, se agradece de verdad, quizá y no sé si es muy fácil, pero el convertir formato movi a epub, sería interesante porque algunos libros vienen en ese formato y no se pueden leer, eso un saludo y gracias de nuevo

    ResponderEliminar
    Respuestas
    1. no conocía ese formato
      pero voy a investigar
      de poderse, a lo mejor selo implemento.
      saludos

      Eliminar
  4. ¿Entonces con ese programa si puedo convertir pdfs de 3000 páginas en documento?
    porque justamente me pasaron uno

    ResponderEliminar
    Respuestas
    1. te va a tardar eso si. pero lo va a hacer casi con seguridad
      saludos

      Eliminar
  5. Hola. Buena actualización. También puede convertir de marcdown a power point? Otras consultas: se puede agregar otro motor OCR, como el del fine reader portable? por otro lado y cambiando de tema. puedes crear una aplicación que permita generar códigos QR que por ejemplo permita generarlos con textos extensos, ya que en la mayoría de generadores on line solo permiten agregar textos de hasta 400 caracteres y tengo entendido que se pueden crear códigos de hasta mas de 3.000 claro que solo si se utiliza con un gran tamaño para evitar los errores de lectura a la hora de escanear. Es decir, un código normal tiene hasta 1x1cm y para usar estos con mas texto se deberían generar con un tamaño superior a los 10x10cm. saludos

    ResponderEliminar
  6. ¿Podrías hacer un tutorial sobre cómo comprar en línea?

    ResponderEliminar
  7. hola, creo que esto no tiene nada que ver por aquí, pero me parece interesante incluirlo en TCA video creator, y es la capacidad de convertir vídeos a fotos, sacando los fotogramas. Se usa ffmpeg en el comando que comparto
    ffmpeg -i video.mp4 image%d.jpg
    ¡espero les sirva!

    ResponderEliminar
  8. Cordial saludo podrían compartirme los portables de TCA convert doc por que ya no están disponibles en esta entrada, muchas gracias y feliz 2024

    ResponderEliminar