jueves, mayo 19, 2011

El papel de Adobe y los PDF dentro del panorama Open Data

Update: I have published an English version of this post at Open Economy blog: "Adobe and the PDF role in Open Data context"

PDF
Fuente: Wikipedia
La semana pasada además de lo que se discutió sobre Open Data, que fue mucho, en el Share PSI Workshop de Bruselas tuve un buen número de interesantes conversaciones en los tiempos entre sesiones. Como os dije, una de las cuestiones que más llamó mi atención fue la presencia de grandes empresas de tecnología en un evento sobre Open Data. Algunas como IBM y Orange hicieron sus presentaciones basadas en los position papers que enviaron y otras como Adobe tenían destacados representantes entre los asistentes. Hasta ahora yo sólo había identificado el intento de Microsoft por entrar en la escena con su iniciativa OGDI, para posicionar Azure como tecnología opendata friendly y de vez en cuando la asistencia en los eventos de referencia de representantes de Google o Telefonica, pero de forma poco o nada activa.

Como os dije este paso adelante de las grandes empresas, que creo tiene que ver con el trabajo de ETSI y W3C, será bueno si conseguimos que enfoquen sus intereses en la dirección correcta, esto es con el Open Data bien hecho. Y de eso quiero hablaros. Una de las cosas en las que yo mismo en mi presentación sobre Euroalert y otros como Chris Taggart o François Bancilhon, hicimos hincapié, fue en que la publicación de los datos del sector público en formato PDF de Adobe no es adecuada para su reutilización. Es evidente que es el formato más útil para distribuir información (informes, documentos, presentaciones, etc) pero, como ocurre con el propio formato HTML, no para distribuir datos estructurados y procesables de forma automática.

Marc Straat intervino desde el público para contarnos cómo están trabajando en Adobe para que PDF pueda convertirse en un formato más útil dentro de las soluciones tecnológicas del panorama Open Data. Debo reconocer que yo no conocía las posibilidades de PDF como contenedor de información, y después de leer el artículo My PDF Hammer que me referenció Marc en una muy agradable conversación durante la comida, creo que tengo una opinión mejor formada de lo que pretendió transmitirnos.

Me parece muy interesante la idea de que un contenedor PDF pueda llevar asociado el fichero original en su versión editable, ya sea un documento de Microsoft Word (.doc), OpenOffice o LibreOffice (.odt), o lo que sea. Si Adobe trabaja para que todas las herramientas que convierten documentos a PDF hagan el trabajo de asociar el fichero fuente para quien desee editarlo, y contribuye a que la característica sea más conocida y utilizada, creo que serían un gran paso hacia adelante. Y una excelente noticia si las administraciones públicas tomasen como práctica habitual la distribución de sus informes en PDF junto con el fichero original y editable dentro del mismo archivo PDF.

Sin embargo, después de leer a fondo el artículo, la idea de utilizar PDF como contenedor de ficheros Open Data, me parece peor idea aún que en mi primera impresión. Realmente no encuentro ninguna ventaja a utilizar un contenedor PDF en vez de un simple fichero ZIP para distribuir datos XML junto con sus esquemas XSD y su manual de documentación en PDF.

En cambio sí veo un importante inconveniente. Ningún lenguaje de programación tiene soporte de forma nativa para el tratamiento de ficheros PDF, mientras que hay numerosas opciones (y más conocidas) para ZIP y por supuesto para XML, XSD o texto plano. Esto hace que para el procesado de datos de forma automática estaríamos convirtiendo una tarea casi trivial para la que existen multitud de herramientas open source bien conocidas para cualquier desarrollador en un problema en el que serán necesarias licencias y conocimiento muy específico, sin aportar ninguna ventaja adicional.

En definitiva no creo que deba adoptarse PDF como contenedor principal de datos fuente. Con las herramientas actuales, es mucho más práctico desde el punto de vista de la reutilización que se distribuya la información en formato ZIP. En cambio, me parece una magnífica idea que se comience a utilizar la posibilidad de adjuntar los ficheros originales e incluso los datasets XML cuando se puedan considerar un complemento al documento, dentro del PDF para favorecer la reutilización.

Por cierto, yo como usuario de Linux, sigo esperando a que Adobe invierta en un visor de Acrobat Reader para mi plataforma (x86_64). En la actualidad me resulta imposible utilizar la mayor parte de los ficheros con características avanzadas como formularios que publica la administración pública en PDF.

1 comentario:

Rodrigo dijo...

Ahora mismo las únicas opciones de edición que proporciona el pdf es mediante el propio Acrobat y el Ilustrator (desconozco si programas de edición vectorial como inkscape pueden hacerlo).

Las licencias con altos precios que tiene generalmente Adobe y la necesidad de descargarse un visor para el formato pdf son los mayores problemas del mismo, pero como funcionalidad, no he encontrado hoy por hoy ninguna que le pueda sustituir (almacenamiento de texto, imágenes, formularios, gráficos para imprenta...