Jose L. Marín

jueves, mayo 19, 2011

El papel de Adobe y los PDF dentro del panorama Open Data

Update: I have published an English version of this post at Open Economy blog: "Adobe and the PDF role in Open Data context"

Fuente: Wikipedia

La semana pasada además de lo que se discutió sobre Open Data, que fue mucho, en el Share PSI Workshop de Bruselas tuve un buen número de interesantes conversaciones en los tiempos entre sesiones. Como os dije, una de las cuestiones que más llamó mi atención fue la presencia de grandes empresas de tecnología en un evento sobre Open Data. Algunas como IBM y Orange hicieron sus presentaciones basadas en los position papers que enviaron y otras como Adobe tenían destacados representantes entre los asistentes. Hasta ahora yo sólo había identificado el intento de Microsoft por entrar en la escena con su iniciativa OGDI, para posicionar Azure como tecnología opendata friendly y de vez en cuando la asistencia en los eventos de referencia de representantes de Google o Telefonica, pero de forma poco o nada activa.

Como os dije este paso adelante de las grandes empresas, que creo tiene que ver con el trabajo de ETSI y W3C, será bueno si conseguimos que enfoquen sus intereses en la dirección correcta, esto es con el Open Data bien hecho. Y de eso quiero hablaros. Una de las cosas en las que yo mismo en mi presentación sobre Euroalert y otros como Chris Taggart o François Bancilhon, hicimos hincapié, fue en que la publicación de los datos del sector público en formato PDF de Adobe no es adecuada para su reutilización. Es evidente que es el formato más útil para distribuir información (informes, documentos, presentaciones, etc) pero, como ocurre con el propio formato HTML, no para distribuir datos estructurados y procesables de forma automática.

Marc Straat intervino desde el público para contarnos cómo están trabajando en Adobe para que PDF pueda convertirse en un formato más útil dentro de las soluciones tecnológicas del panorama Open Data. Debo reconocer que yo no conocía las posibilidades de PDF como contenedor de información, y después de leer el artículo My PDF Hammer que me referenció Marc en una muy agradable conversación durante la comida, creo que tengo una opinión mejor formada de lo que pretendió transmitirnos.

Me parece muy interesante la idea de que un contenedor PDF pueda llevar asociado el fichero original en su versión editable, ya sea un documento de Microsoft Word (.doc), OpenOffice o LibreOffice (.odt), o lo que sea. Si Adobe trabaja para que todas las herramientas que convierten documentos a PDF hagan el trabajo de asociar el fichero fuente para quien desee editarlo, y contribuye a que la característica sea más conocida y utilizada, creo que serían un gran paso hacia adelante. Y una excelente noticia si las administraciones públicas tomasen como práctica habitual la distribución de sus informes en PDF junto con el fichero original y editable dentro del mismo archivo PDF.

Sin embargo, después de leer a fondo el artículo, la idea de utilizar PDF como contenedor de ficheros Open Data, me parece peor idea aún que en mi primera impresión. Realmente no encuentro ninguna ventaja a utilizar un contenedor PDF en vez de un simple fichero ZIP para distribuir datos XML junto con sus esquemas XSD y su manual de documentación en PDF.

En cambio sí veo un importante inconveniente. Ningún lenguaje de programación tiene soporte de forma nativa para el tratamiento de ficheros PDF, mientras que hay numerosas opciones (y más conocidas) para ZIP y por supuesto para XML, XSD o texto plano. Esto hace que para el procesado de datos de forma automática estaríamos convirtiendo una tarea casi trivial para la que existen multitud de herramientas open source bien conocidas para cualquier desarrollador en un problema en el que serán necesarias licencias y conocimiento muy específico, sin aportar ninguna ventaja adicional.

En definitiva no creo que deba adoptarse PDF como contenedor principal de datos fuente. Con las herramientas actuales, es mucho más práctico desde el punto de vista de la reutilización que se distribuya la información en formato ZIP. En cambio, me parece una magnífica idea que se comience a utilizar la posibilidad de adjuntar los ficheros originales e incluso los datasets XML cuando se puedan considerar un complemento al documento, dentro del PDF para favorecer la reutilización.

Por cierto, yo como usuario de Linux, sigo esperando a que Adobe invierta en un visor de Acrobat Reader para mi plataforma (x86_64). En la actualidad me resulta imposible utilizar la mayor parte de los ficheros con características avanzadas como formularios que publica la administración pública en PDF.

sábado, mayo 14, 2011

Obstáculos para el desarrollo de un mercado pan-europeo de reutilización, un largo resumen

Update: I have published an English version of this post at Open Economy blog: "Road Blocks to a Pan European Market for PSI Reuse, a long summary"

Fuente: ePSIplatform

El martes 10 y el miércoles 11 tuve la suerte de participar en Bruselas en el workshop "Eliminando los obstáculos para el desarrollo de un mercado pan-europeo de reutilización de información del sector público" de la iniciativa Share PSI. Estuvo magníficamente organizado por W3C y ETSI para la Comisión Europea, y consiguió reunir a un buen número de miembros de la comunidad open data europea, de los gobiernos, de empresas y de la sociedad civil.

El objetivo perseguido por la Comisión Europea era recoger los puntos más importantes de la discusión para llevarlos al evento de la Primera Asamblea de la Agenda Digital: "Más allá de los datos en bruto: Información del sector público, pero bien hecho". En última instancia toda las aportaciones, al igual que las obtenidas a través de la consulta pública sobre Open Data celebrada a final de 2010, ayudarán a realizar una reforma de la directiva PSI mucho más rica y eficaz.

Comparado con otras ocasiones, el nivel de la discusión en muy opinión fue muy elevado en la mayor parte de las mesas, aunque varias de las discusiones son recurrentes en este tipo de eventos (precio, licencias, retorno de la inversión y privacidad). Sin duda, esto indica que no estamos siendo capaces de resolverlos satisfactoriamente. En ocasiones también se puso de manifiesto que no todo el mundo está al mismo nivel de discusión, pero es algo completamente lógico cuando la comunidad está creciendo a un ritmo elevado y siguen incorporándose más personas a la discusión.

En definitiva creo que el seminario fue muy intenso y productivo y en buena medida se debió al excelente trabajo realizado por el comité de programa y especialmente por Margot Dor (ETSI) y Thomas Roessler (W3C) para crear un programa compacto a partir del elevado número de position papers enviados desde toda Europa.

Como sabéis soy habitual de este tipo de eventos en los que participo siempre que me es posible, y en esta ocasión una de las cosas que más llamó mi atención, fue la presencia de representantes de grandes empresas en la discusión. No era habitual hasta ahora que Adobe, IBM u Orange se interesasen por el movimiento Open Data y creo que es bueno, porque con sus herramientas y su posición en los servicios TIC de las Administraciones Públicas pueden aportar soluciones que impulsen el desarrollo de un Open Data más efectivo.

Sospecho que esta presencia tiene mucho que ver con W3C y ETSI. Espero que hayan venido para quedarse y aportar mucho al debate y a las soluciones, aunque de momento aún están lejos del grupo más avanzado. Sin embargo, también creo que es nuestra responsabilidad, la de quienes llevamos más tiempo en la discusión, aportarles nuestra visión para que como dice el objetivo de la Big Idea, tengamos un open data bien hecho.

También destacaría el elevado número de representantes de los gobiernos que identifiqué en la sala (al menos España, Dinamarca, Países Bajos y Finlandia) y la representación de Nueva Zelanda en la persona de Laurence Millar, quien nos describió estupendamente la situación en su país, envidiable en muchos aspectos, como el de la muy activa comunidad de desarrolladores.

Me resultó muy interesante la discusión en torno al precio de los datasets de información meteorológica y la aparente larga disputa que ahora han llegado a la arena del open data de la mano de la Asociación de servicios meteorológicos privados (PRIMET). Creo que es bueno que esto ocurra y que estos debates vengan a enriquecer la discusión. También llamaron mi atención varios de los nuevos casos de uso que se presentaron como el interesantísimo FearSquare de Andrew Garbett y sobre todo el impresionante Arcticweb que nos enseñó Erin Lynch.

Por otra parte, fue un placer escuchar a emprendedores como François Bancilhon hablar sobre su trabajo en Data Publica y a Chris Taggart sobre su estupendo Open Corporates, el cuál llevo siguiendo ya algún tiempo. Los riesgos que están corriendo personas como ellos son los que conseguirán que se impulse el avance de la situación, a pesar quizá tengan que enfrentarse a problemas, porque acaben molestando a alguno de los poderes establecidos. Mi más sincera admiración, respeto y apoyo para que sigan adelante.

Por mi parte, presenté el trabajo de Euroalert en el desarrollo de la plataforma 10ders Information Services, que agregará la información de los contratos públicos de toda la UE. Podéis encontrar la presentación y el resumen de la intervención en el blog de Euroalert. Además actué de moderador en la segunda parte de la sesión sobre Casos de Uso, donde tuvimos la recurrente queja de los editores acerca de las dificultades que encuentran para competir con lo que se siguen empeñando en llamar la cultura de lo gratis. Me sorprendió su enfoque en el contexto del Open Data, el cuál creo que está completamente equivocado de nuevo, pero que ójala reconduzcan de una manera más productiva. También tuve la suerte de contar con una de las mejores frases del evento, pronunciada por Hervé Rannou, de ITEMS International, y que presentó las lecciones aprendidas en el proyecto Open Data de la Ciudad de Marsella: "El uso de los datos es infraestructura, como las carreteras"

El día 16 de junio podremos ver en la Primera Asamblea de la Agenda Digital Europea los resultados y conclusiones más interesantes que la Comisión Europea ha extraído de este Workshop. Espero que sirvan para dar pasos firmes hacia adelante que permitan el desarrollo de un entorno más favorable para el crecimiento del mercado de nuevos servicios de información. En definitiva, para las empresas powered by opendata como me gusta llamarlas y entre las que espero que destaque Euroalert, tanto por el éxito de su propuesta de valor como por su contribución al desarrollo de este entorno.

Para finalizar este larguísimo post, aunque creo que la ocasión y el tema lo merecen, os dejo algunos de los recursos con los que podéis profundizar en lo que se desarrolló en el seminario. Yo los he utilizado para poder hacerme a la idea de lo que se dijo en las dos últimas sesiones, a las que no pude asistir. Os recomiendo especialmente el excelente trabajo realizado en la toma de notas colaborativa que refleja de una forma francamente fiel lo que se dijo. También podéis echar un vistazo al archivo de los tweets creado por la Universidad de Lincoln, a las transparencias utilizadas por los ponentes, la lista de cuentas de twitter de los asistentes, los position papers enviados o las fotos del evento.

lunes, mayo 09, 2011

En la Renta 2010 me he rendido a las primeras de cambio

La verdad es que el título lo dice todo. Este año no voy a poder aportar nada nuevo a todos aquellos que tienen problemas técnicos con el despliegue tecnológico que nos obsequia la Agencia Tributaria. Me remito a los artículos sobre la campaña de la renta que desde el año 2006 son tradición en Mi casa en Internet y que por desgracia siguen siendo útiles porque los problemas que documentan siguen sin resolver.

Todos los años me entero del comienzo de la campaña de la renta por el aumento del tráfico del blog, que a comienzos de abril experimenta un crecimiento grande debido a los artículos que enseñaban cómo descargar los datos fiscales sin necesidad de usar el Programa Padre o a cómo ejecutar el Programa Padre en Linux sin hacer la instalación completa.

Este año, utilizando el método que os expliqué el año pasado, conseguí ejecutar la versión del Programa Padre en Linux y descargar los datos fiscales sin problemas. Sin embargo al intentar importar los datos fiscales e incorporarlos a una nueva declaración, el programa daba un error no específico que no he tenido energía para perseguir. Mi gozo en un pozo.

Me anoto un gran fracaso online, porque este año debo confesar que a las primeras de cambio me rendí y en vez de localizar y solucionar el problema, busqué un viejo disco de Windows XP y lo instalé en un ordenador ya retirado. Así que sí, aunque dejé de dar soporte para Windows con Windows Vista, este año he hecho la declaración de la renta en Windows.

La presentación con el fichero .100 exportado desde Windows XP sí que la he realizado en Linux y con Firefox... el último gesto de rebeldía, que no justifica un éxito online y menos después de defraudar a la audiencia.