sábado, agosto 20, 2016

Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 12 de Mayo de 2016 en español Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos y en inglés: Some very simple practices to help with the reuse of open datasets
En los últimos años se han publicado un buen número de documentos dirigidos a ayudar a las administraciones que publican datos abiertos. En su post “Las buenas, las malas…y las mejores prácticas”, Martín hizo una excelente recopilación de hasta 19 documentos entre los que podemos encontrar guías, manuales, buenas prácticas, kits de herramientas, etc. El tipo de autores que han invertido recursos en estos materiales incluye desde Gobiernos nacionales, Gobiernos regionales, Fundaciones, Organismos de estandarización, la propia Comisión Europea, etc, con lo que podemos encontrar diferentes enfoques.
Por otra parte, se ha dedicado y se sigue dedicando una importante cantidad de esfuerzo al desarrollo de estándares para la liberación de conjuntos de datos abiertos, tanto de carácter general como para dominios concretos.

Photo by: Barn Images

Y sin embargo con demasiada frecuencia cuando se publican conjuntos de datos se olvidan reglas muy sencillas que facilitan la reutilización de datos abiertos de forma sostenible. Voy a mencionar sólo algunas de las dificultades que nos encontramos con frecuencia cuando exploramos un nuevo conjunto de datos y evaluamos si merece la pena incorporarlo a nuestro servicio:
  1. Los registros no contienen un campo de identificador único, lo cuál hace muy difícil monitorizar los cambios cuando se actualiza el dataset.
  2. Los registros no contienen un campo con la fecha de actualización, lo cuál también complica monitorizar qué registros han cambiado desde una versión de la publicación hasta la siguiente.
  3. Los registros no contienen un campo con la fecha de creación, lo cuál dificulta saber cuándo se han incorporado al conjunto de datos.
  4. Los campos no utilizan estándares comúnmente aceptados para el tipo de dato que contienen. Es frecuente en campos que contienen fechas y horas, o importes económicos, etc., pero también en otros.
  5. Inconsistencias entre el contenido del conjunto de datos y el equivalente publicado en HTML. Las inconsistencias pueden ser de muchos tipos, desde registros que se publican en la página web y no se exportan al conjunto de datos hasta diferencias en los campos que se publican en uno u otro formato.
  6. El registro se publica en el conjunto de datos mucho más tarde que en la propia página web. Esto puede hacer inútil la reutilización del conjunto de datos si el servicio en el que se están pensando requiere inmediatez.
  7. No se especifican de forma explícita los compromisos de publicación del conjunto de datos. No es tan importante juzgar estos compromisos como buenos o malos, sino que sean conocidos ya que es muy complicado planificar la reutilización de un conjunto de datos cuando no sabes a qué atenerte.
  8. No se proporciona un una descripción simple del contenido de cada campo del conjunto de datos y de la estructura del dataset así como los criterios relevantes para interpretar el contenido (listas de apoyo, criterios actualización, significado de los estados, etc.)
Como veis son prácticas que no son específicas del trabajo con datos abiertos, sino que tienen más que ver con la experiencia en los proyectos de desarrollo de software, o sencillamente con el sentido común.

Casi todas son muy sencillas de implementar y sin embargo son de gran importancia a la hora de convencer a alguien de que invierta su tiempo en un conjunto de datos abiertos. Porque como sabéis, lidiar con los problemas asociados al scrapping de páginas web puede llegar a ser más ventajoso que reutilizar conjuntos de datos abiertos. Y estas son algunas de las razones que pueden evitarlo.

sábado, agosto 06, 2016

¿Hasta dónde debe llegar la administración en la prestación de servicios sobre datos abiertos?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 30 de Marzo de 2016 en español ¿Hasta dónde debe llegar la administración en la prestación de servicios sobre datos abiertos? y en inglés: How far should a public administration go with regard to the provision of value—added services based on open data?
El lunes participé en el panel “Reutilización de los datos abiertos de la Unión Europea: Desafíos y oportunidades” dentro del Workshop sobre reutilización de datos legales, organizado por la Oficina de Publicaciones de la UE. Uno de los interesantes debates del panel (podéis verlo aquí) estuvo centrado en la vieja cuestión de ¿hasta dónde debe llegar la administración pública en la prestación de servicios de valor sobre los mismos conjuntos de datos que suministra para ser reutilizados?.
La preocupación, y el debate siempre que se piensa en cómo fomentar la reutilización de datos, viene de la necesidad de encontrar un equilibrio entre los servicios que debe prestar una administración a todos los ciudadanos de forma gratuita y el espacio que desea dejarse a la iniciativa privada para crear riqueza a partir de esos datos. Y en muchos casos, ese equilibrio inestable genera muchas tensiones que no benefician la innovación.

En los últimos años, he escuchado multitud argumentos, tanto desde el lado de la oferta como desde el lado de la demanda y que van desde un extremo: “las administraciones públicas sólo deben suministrar datos en crudo y ningún servicio”, hasta el contrario: “la administración debe avanzar en la cadena de valor tanto como le sea posible en la prestación de servicios a los ciudadanos”.

Mi posición en este sentido, tal y como tuve oportunidad de defender en el debate, es que trazar una línea roja que diferencie lo que debe considerarse un servicio básico de un servicio premium no es una forma práctica de abordar el tema. En su lugar, creo que deberíamos trabajar en enunciar los incentivos mínimos que son imprescindibles para que pueda producirse innovación y por tanto creación de riqueza basada en datos abiertos.


Photo by: Rodion Kutsaev
Por ello aproveché el panel para lanzar la siguiente idea como punto de partida para enunciar de forma sencilla las mínimas condiciones que necesita un reutilizador para crear servicios de valor:

“la administración pública debería suministrar los datasets en unas condiciones tales que un reutilizador pueda reproducir el mismo servicio que se proporciona de forma gratuita”

Sencillamente porque en muchos casos la creación de valor parte de ese mínimo, esto es, de mejorar en algún aspecto un servicio que ya existe. Si no es posible reproducir lo gratuito porque los datos se liberan con algo de retraso o se liberan menos datos o con peor calidad, en muchos casos no será posible innovar para aportar nada nuevo al mercado.

Creo que esta forma de plantear la cuestión puede ayudarnos a avanzar en el debate, así que espero que sirva para que podamos mejorar la sentencia entre toda la comunidad, o quizá refutarla en caso de que demostremos que se trata de un principio equivocado.

martes, marzo 15, 2016

Abramos más conjuntos de datos, porque ¿qué puede salir mal?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 16 de Febrero de 2016 en español Abramos más conjuntos de datos, ¿qué puede salir mal? y en inglés: Let’s open more datasets. What could go wrong?
En las conversaciones entre miembros de la comunidad de datos abiertos, en especial por parte de los responsables de proveer datos, es frecuente escuchar frases como “es necesario estimular la demanda de datos abiertos”, “no conseguimos llegar a los reutilizadores”, “sería interesante que los proveedores de datos y los reutilizadores hablasen más”. Estoy seguro de que habéis oído frases por el estilo en numerosas ocasiones.

Esta inquietud seguramente no es ajena a los organizadores del IODC, quienes deben ser conscientes de que las ediciones anteriores del evento han estado muy centradas en lo que suele llamarse el “lado de la oferta”, esto es en las organizaciones públicas encargadas de custodiar y proveer conjuntos de datos abiertos. Lo cierto es que en España, quizá por ser el Ministerio de Industria el encargado de promover las políticas de datos abiertos, siempre se ha fomentado que las empresas reutilizadoras hayan estado muy presentes en los eventos sobre datos abiertos. Y seguro que esto se notará en el programa de esta cuarta edición del IODC en Octubre.

Sin embargo, lo que me gustaría en este post es contaros un secreto que puede ayudar a entender por qué aparentemente no existe esa anhelada demanda de datos abiertos: Resulta que para las empresas reutilizadoras con frecuencia es más productivo obtener los datos de la web que utilizar portales de datos abiertos. Y es que, por desgracia, las tecnologías para la extracción de datos de documentos han avanzado en los últimos años con mucha mayor velocidad que la cantidad de conjuntos de datos en los portales.
 Y aunque no nos guste y sea muy poco eficiente, actualmente es el único camino posible en muchos sectores para que las empresas puedan generar valor a partir de datos. En otros sectores, directamente al no haber datos publicados ni en documentos ni en conjuntos de datos, no hay demanda que se pueda estimular. Las empresas, en especial las pequeñas, sobreviven con el valor que pueden crear y vender hoy, no de las promesas futuras.

Si fueseis una empresa, ¿dónde pondríais vosotros los recursos? ¿en una librería open source para mejorar un algoritmo de extracción de datos de pdfs o en participar en discusiones circulares acerca de la mejor forma de abrir datos?

A mí, como parte del “lado de la demanda”, me gustaría que el IODC 2016 fuese un punto de inflexión, no tanto para definir más estándares, más índices y más políticas y leyes, sino para obtener un compromiso de publicación de más conjuntos de datos útiles.

Si realmente se pretende fomentar la innovación y la creación de valor a partir de los datos abiertos propongo que se inunden los portales de conjuntos de datos útiles. ¿Qué puede salir mal? En realidad muchos de esos datos ya están dentro de documentos publicados en la web y se está desperdiciando mucho esfuerzo en extraerlos y limpiarlos cuando podría dedicarse a crear valor.

domingo, diciembre 23, 2012

Eder puede conseguir un futuro mejor con nuestra ayuda

Por desgracia, todos los años tenemos conocimiento de algún caso de persona, que como Eder, tiene graves problemas de salud cuya única esperanza de curación pasa por operarse en los Estados Unidos. Por supuesto, el coste económico de la operación suele ser completamente inalcanzable para una familia normal.

Lo que no es tan habitual es que esta persona pertenezca a tu entorno en vez de saber de sus problemas sólo a través de unos minutos en las noticias. Conozco a Eder Achútegui porque es sobrino de uno de mis mejores amigos y además tengo un gran aprecio por su padre y la mayor parte de su familia a quien he tenido la suerte de frecuentar desde hace más de 25 años.

La vida de Eder, desde que nació, ha sido una enorme lucha por adaptarse a su cardiopatía congénita que no le ha permitido disfrutar de las cosas sencillas que son tan importantes para nuestros hijos. Cosas como correr, saltar y jugar. Por eso cuando su familia supo que existía una posible solución en Boston se volcaron para conseguir los recursos económicos que eran necesarios. Al fin y al cabo las familias se endeudan de por vida por una casa, ¡qué no hacer por la salud de un niño!.

Su caso está descrito en el blog de Eder y ha tenido la atención de los medios y la ayuda de varias asociaciones como podéis ver a través de su blog. A pesar de todo, para que Eder pueda ir a su segunda operación en verano de 2013, todavía es necesario recaudar una importante cantidad de dinero para alcanzar los más de 88.000 $ en que está presupuestada.

Como os podéis imaginar, los bancos no dan facilidades para financiar estos casos, y nuestra sanidad pública tampoco aporta nada así que sólo nos queda movilizarnos individualmente para ayudar al margen de las instituciones. Por fortuna vivimos en un momento en el que todos podemos conectarnos entre nosotros sin ninguna necesidad de intermediarios gracias a la web y a todas las herramientas que se han construido sobre esta magnífica plataforma que está cambiando nuestro mundo. Por mi parte he donado los derechos de autor de 2010 y 2011 de mi libro "Web 2.0: una descripción sencilla de los cambios que estamos viviendo" para ayudar un poco. Y haré lo mismo en años sucesivos.

Estas son algunas de las posibilidades con las que podemos colaborar para conseguir que Eder tenga una vida mejor. La mitad ya está conseguida y en manos de todos nosotros está que pueda viajar hacia una segunda operación que le reconstruya el corazón y le ofrezca una mejor calidad de vida. Viendo lo que ha mejorado con la primera operación vale la pena el esfuerzo:
  • Comprar el libro "Diez Cuentos para Eder" que ha escrito su abuela y querida profesora mía.
  • Para quienes viváis en Burgos o en Soria, estar atentos a las decenas de actividades que está organizando su familia. Podéis seguirlas en el blog de los amigos de Eder
  • Recoger tapones rígidos. En Valladolid, podéis traérmelos a mí que se los llevaré encantado a Burgos a su familia.
  • Comprar mi libro "Web 2.0: Una descripción sencilla de los cambios que estamos viviendo", cuyos derechos de autor seguiré donando a Eder.
  • O simplemente hacer una donación en las cuenta bancaria que ha abierto su familia en  Triodos Bank: 1491-0001-23-2021988627

martes, agosto 07, 2012

Alberto comienza su vida

Hoy ha nacido Alberto, nuestro tercer hijo y como mandan los tiempos el primer anuncio ha sido a través de Twitter. A las 16:23 del día 7 de Agosto de 2012 nos hemos convertido en familia numerosa y tanto él como su madre ya están descansando. Y es que nacer no es nada fácil.

Lo más destacado en las noticias es que hoy ha llegado el primer oro para España en los Juegos Olímpicos de Londres 2012 y además ha llegado acompañado de 2 medallas de plata. El resto de cosas que se leen estos días espero que no sean recordadas si no es para que no vuelvan a repetirse.

Es casi seguro que 2012 no será recordado como un gran año en España, pero para nuestra pequeña familia 2012 siempre será muy especial. Deseo además que pueda desarrollar su vida en un país mejor, aunque probablemente no será este.

miércoles, febrero 15, 2012

Lo importante de la Licencia Open Data europea es que exista, no cuál será la licencia elegida

Update: I have published an English version of this post at Open Economy blog: "The important thing about the EU Open Data License is not which License will be selected."

Con frecuencia he escrito acerca de la sana envidia que me produce ver cómo la comunidad open data del Reino Unido trabaja para ser un referente a nivel global. El propio Primer Ministro David Cameron está liderando una ambiciosa agenda Open Data con el fin de impulsar la economía digital británica. Con la misma frecuencia he sido muy crítico con el inmovilismo de nuestros líderes políticos en temas de gobierno abierto en general y con la escasa utilidad de las iniciativas open data que se han ido lanzando en España.

Sin embargo algo parece que está cambiando. Esta vez, tengo que decir que estoy muy orgulloso de la Comunidad Open Data española por el liderazgo que está ejerciendo en el apoyo a la campaña por la licencia Open Data única en la Unión Europea. Como sabéis, con motivo de las negociaciones en el Consejo Europeo para la revisión de la Directiva RISP, hace unos días, Andres Nin en su blog, inició una campaña para solicitar que se incluya en dicha directiva un modelo de licencia único para todos los datos públicos que se liberen en la UE. En estos días se han sumado más de 330 apoyos, algunos tan relevantes como el del mismo Patxi López, lehendakari del Gobierno Vasco. Y seguro que se unirán muchos más. 


Como sabéis, yo sumé mi apoyo porque creo que una licencia única europea es muy importante para el desarrollo de compañías Open Data como Euroalert.

Sin embargo, durante esta semanas en las que he estado siguiendo la campaña y apoyándola todo lo que he podido he tenido la oportunidad de conocer las reticencias de algunas personas y organizaciones relevantes de la comunidad open data europea. Sobre todo se refieren a discusiones acerca de cuál sería la licencia elegida o a que sería mejor incluir una definición Open Data en lugar de sólo una licencia.

En mi modesta opinión no creo que sea importante en este punto decidir cuál es la licencia más apropiada ya que existen un buen número de licencias que cumplirían perfectamente el propósito.
"Lo realmente importante es que la licencia Open Data sea única en toda la Unión Europea para fortalecer el mercado único"
Y me preocupa mucho que este detalle esté haciendo perder fuerza a la campaña. Sería francamente triste que los intereses por imponer una u otra licencia hagan que se pierda esta oportunidad. Apoyemos que se considere incluir una licencia única en la Directiva RISP y después trabajemos para que pueda ser tan sencilla como la licencia que proponía Alberto Ortiz en su blog. Ojalá pudiese ser así de sencilla.