Cómo extraer las tablas de un archivo PDF

Podrás personalizar la extracción

En muchas ocasiones recibimos un documento PDF con tablas y necesitamos extraer las tablas en un documento editable. Por ese motivo en este tutorial te mostraremos como hacer esta tarea con el programa Bytescout PDF Multitool.

Podremos detectar las tablas de una página en particular o bien extraer todas las tablas del documento, para luego exportarlas en formato TXT, CSV, XML, JSON, o XLS.

 

Interfaz sencilla de comprender
Interfaz sencilla de comprender

 

 

Una vez descargado el programa desde su página oficial, solo tendrás que abrir el archivo PDF (también es un visualizador) y podrás ver archivos con una o más páginas.

Detecta las tablas rápidamente
Detecta las tablas rápidamente

 

Ahora desde el menú de la izquierda tendrás que pinchar en Detect tables y automáticamente se abrirá una ventana que te indicará las tablas detectadas, pero que podrás manipular (número de filas y columnas y establecer el borde y el ratio, entre otras funciones).
En este punto tendrás que pinchar en el botón Detect next tables, una vez detectadas las tablas solo te resta extraerlas y exportarlas pinchando en Proceed to extraction (selecciona el formato de salida).

Podrás personalizar la extracción
Podrás personalizar la extracción

 

Desde la siguiente ventana podrás personalizar las opciones de mantener el formato de texto, los espacios, espacio entre columnas, extraer la página que se visualiza o todas, o bien determinar las páginas que quieres extraer las tablas.

La extracción es muy buena
La extracción es muy buena

 

Solo te resta pinchar en el botón para exportar las tablas en el formato seleccionado y guardarlo en tu ordenador o bien copiar la detección en el portapapeles.

Realmente la plataforma nos ofrece una opción sencilla y automática, para poder extraer las tablas de una o varias páginas de un documento PDF. Otro punto a favor es la gran cantidad de formatos de salidas.

En nuestras pruebas el entorno ha funcionado a la perfección en pocas páginas, pero en la detección por lote nos ha dado un poco de fallos de formato de texto.

Bytescout PDF Multitool es un programa gratuito que se encuentra disponible para sistemas operativos Windows.

Deja tu voto

1 punto
Upvote Downvote

Total votes: 1

Upvotes: 1

Upvotes percentage: 100.000000%

Downvotes: 0

Downvotes percentage: 0.000000%

  • Maquinangel

    Muy útil este programa.

  • Pico de oro

    Gracias! Se ve muy bueno el programa