Fuente: Wikipedia
Como os dije este paso adelante de las grandes empresas, que creo tiene que ver con el trabajo de ETSI y W3C, será bueno si conseguimos que enfoquen sus intereses en la dirección correcta, esto es con el Open Data bien hecho. Y de eso quiero hablaros. Una de las cosas en las que yo mismo en mi presentación sobre Euroalert y otros como Chris Taggart o François Bancilhon, hicimos hincapié, fue en que la publicación de los datos del sector público en formato PDF de Adobe no es adecuada para su reutilización. Es evidente que es el formato más útil para distribuir información (informes, documentos, presentaciones, etc) pero, como ocurre con el propio formato HTML, no para distribuir datos estructurados y procesables de forma automática.
Marc Straat intervino desde el público para contarnos cómo están trabajando en Adobe para que PDF pueda convertirse en un formato más útil dentro de las soluciones tecnológicas del panorama Open Data. Debo reconocer que yo no conocía las posibilidades de PDF como contenedor de información, y después de leer el artículo My PDF Hammer que me referenció Marc en una muy agradable conversación durante la comida, creo que tengo una opinión mejor formada de lo que pretendió transmitirnos.
Me parece muy interesante la idea de que un contenedor PDF pueda llevar asociado el fichero original en su versión editable, ya sea un documento de Microsoft Word (.doc), OpenOffice o LibreOffice (.odt), o lo que sea. Si Adobe trabaja para que todas las herramientas que convierten documentos a PDF hagan el trabajo de asociar el fichero fuente para quien desee editarlo, y contribuye a que la característica sea más conocida y utilizada, creo que serían un gran paso hacia adelante. Y una excelente noticia si las administraciones públicas tomasen como práctica habitual la distribución de sus informes en PDF junto con el fichero original y editable dentro del mismo archivo PDF.
Sin embargo, después de leer a fondo el artículo, la idea de utilizar PDF como contenedor de ficheros Open Data, me parece peor idea aún que en mi primera impresión. Realmente no encuentro ninguna ventaja a utilizar un contenedor PDF en vez de un simple fichero ZIP para distribuir datos XML junto con sus esquemas XSD y su manual de documentación en PDF.
En cambio sí veo un importante inconveniente. Ningún lenguaje de programación tiene soporte de forma nativa para el tratamiento de ficheros PDF, mientras que hay numerosas opciones (y más conocidas) para ZIP y por supuesto para XML, XSD o texto plano. Esto hace que para el procesado de datos de forma automática estaríamos convirtiendo una tarea casi trivial para la que existen multitud de herramientas open source bien conocidas para cualquier desarrollador en un problema en el que serán necesarias licencias y conocimiento muy específico, sin aportar ninguna ventaja adicional.
En definitiva no creo que deba adoptarse PDF como contenedor principal de datos fuente. Con las herramientas actuales, es mucho más práctico desde el punto de vista de la reutilización que se distribuya la información en formato ZIP. En cambio, me parece una magnífica idea que se comience a utilizar la posibilidad de adjuntar los ficheros originales e incluso los datasets XML cuando se puedan considerar un complemento al documento, dentro del PDF para favorecer la reutilización.
Por cierto, yo como usuario de Linux, sigo esperando a que Adobe invierta en un visor de Acrobat Reader para mi plataforma (x86_64). En la actualidad me resulta imposible utilizar la mayor parte de los ficheros con características avanzadas como formularios que publica la administración pública en PDF.