miércoles, agosto 31, 2016

¿Y si todos pudiésemos calcular nuestros propios “indicadores oficiales” personalizados en tiempo real?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 16 de Febrero de 2016 en español ¿Y si todos pudiésemos calcular nuestros propios “indicadores oficiales” personalizados en tiempo real? y en inglés: What if we could calculate our own real-time customized “official indicators”?
Prácticamente todos los gobiernos del mundo y las instituciones multilaterales como OCDE, ONU, Banco Mundial o Comisión Europea comenzaron sus políticas de datos abiertos con la liberación de los conjuntos de datos estadísticos que elaboran. Gracias a ello tenemos a nuestra disposición una gran cantidad de indicadores con los que podemos trabajar en formatos razonablemente amigables para estudiar casi cualquier cuestión, ya sea medio ambiental, social, económica o una combinación de todas estas dimensiones. Además de proporcionarnos los conjuntos de datos, en algunos casos incluso han creado herramientas de acceso sencillo (APIs) y hasta aplicaciones que nos ayudan a interpretar los indicadores (visualizaciones).

Estos indicadores siguen ciclos periódicos que pueden ser desde mensuales hasta plurianuales debido a que es muy costoso producirlos. En general las metodologías con las que se calculan los indicadores son opacas para los ciudadanos o en el mejor de los casos están documentadas de forma muy superficial en sus fichas técnicas.

Photo by William Iven

Imaginemos ahora por un momento que los sistemas nacionales de seguridad social, los registros mercantiles, los registros de aduanas, las agencias medio ambientales, etc liberasen los datos que custodian como conjuntos de datos abiertos en tiempo real. Uno de los efectos que podemos imaginarnos fácilmente es que muchos indicadores que ahora se liberan de forma periódica podrían conocerse y, mejor aún, explorarse en tiempo real.

Además se eliminaría la posibilidad de que nadie pudiese tener información privilegiada ya que todos tendríamos la misma capacidad para observar la evolución de los indicadores para tomar nuestras decisiones. O de personalizar el cálculo a nuestra situación particular trabajando con las metodologías.
El hecho es que en muchos casos el periodo de producción de algunos indicadores se podría acortar hasta acercarnos al tiempo real y que el coste de producción se podría reducir enormemente gracias a los datos abiertos.

Aunque es un gran paso hacia adelante, no creo que debamos conformarnos con disponer de los indicadores como datos abiertos, debemos aspirar a examinar los conjuntos de datos que se utilizan para calcular estos indicadores e incluso personalizarlos, ya que convenientemente anonimizados no hay razón para que no estén liberados como datos abiertos.

sábado, agosto 20, 2016

Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 12 de Mayo de 2016 en español Algunas prácticas muy sencillas que facilitan la reutilización de conjuntos de datos abiertos y en inglés: Some very simple practices to help with the reuse of open datasets
En los últimos años se han publicado un buen número de documentos dirigidos a ayudar a las administraciones que publican datos abiertos. En su post “Las buenas, las malas…y las mejores prácticas”, Martín hizo una excelente recopilación de hasta 19 documentos entre los que podemos encontrar guías, manuales, buenas prácticas, kits de herramientas, etc. El tipo de autores que han invertido recursos en estos materiales incluye desde Gobiernos nacionales, Gobiernos regionales, Fundaciones, Organismos de estandarización, la propia Comisión Europea, etc, con lo que podemos encontrar diferentes enfoques.
Por otra parte, se ha dedicado y se sigue dedicando una importante cantidad de esfuerzo al desarrollo de estándares para la liberación de conjuntos de datos abiertos, tanto de carácter general como para dominios concretos.

Photo by: Barn Images

Y sin embargo con demasiada frecuencia cuando se publican conjuntos de datos se olvidan reglas muy sencillas que facilitan la reutilización de datos abiertos de forma sostenible. Voy a mencionar sólo algunas de las dificultades que nos encontramos con frecuencia cuando exploramos un nuevo conjunto de datos y evaluamos si merece la pena incorporarlo a nuestro servicio:
  1. Los registros no contienen un campo de identificador único, lo cuál hace muy difícil monitorizar los cambios cuando se actualiza el dataset.
  2. Los registros no contienen un campo con la fecha de actualización, lo cuál también complica monitorizar qué registros han cambiado desde una versión de la publicación hasta la siguiente.
  3. Los registros no contienen un campo con la fecha de creación, lo cuál dificulta saber cuándo se han incorporado al conjunto de datos.
  4. Los campos no utilizan estándares comúnmente aceptados para el tipo de dato que contienen. Es frecuente en campos que contienen fechas y horas, o importes económicos, etc., pero también en otros.
  5. Inconsistencias entre el contenido del conjunto de datos y el equivalente publicado en HTML. Las inconsistencias pueden ser de muchos tipos, desde registros que se publican en la página web y no se exportan al conjunto de datos hasta diferencias en los campos que se publican en uno u otro formato.
  6. El registro se publica en el conjunto de datos mucho más tarde que en la propia página web. Esto puede hacer inútil la reutilización del conjunto de datos si el servicio en el que se están pensando requiere inmediatez.
  7. No se especifican de forma explícita los compromisos de publicación del conjunto de datos. No es tan importante juzgar estos compromisos como buenos o malos, sino que sean conocidos ya que es muy complicado planificar la reutilización de un conjunto de datos cuando no sabes a qué atenerte.
  8. No se proporciona un una descripción simple del contenido de cada campo del conjunto de datos y de la estructura del dataset así como los criterios relevantes para interpretar el contenido (listas de apoyo, criterios actualización, significado de los estados, etc.)
Como veis son prácticas que no son específicas del trabajo con datos abiertos, sino que tienen más que ver con la experiencia en los proyectos de desarrollo de software, o sencillamente con el sentido común.

Casi todas son muy sencillas de implementar y sin embargo son de gran importancia a la hora de convencer a alguien de que invierta su tiempo en un conjunto de datos abiertos. Porque como sabéis, lidiar con los problemas asociados al scrapping de páginas web puede llegar a ser más ventajoso que reutilizar conjuntos de datos abiertos. Y estas son algunas de las razones que pueden evitarlo.

sábado, agosto 06, 2016

¿Hasta dónde debe llegar la administración en la prestación de servicios sobre datos abiertos?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 30 de Marzo de 2016 en español ¿Hasta dónde debe llegar la administración en la prestación de servicios sobre datos abiertos? y en inglés: How far should a public administration go with regard to the provision of value—added services based on open data?
El lunes participé en el panel “Reutilización de los datos abiertos de la Unión Europea: Desafíos y oportunidades” dentro del Workshop sobre reutilización de datos legales, organizado por la Oficina de Publicaciones de la UE. Uno de los interesantes debates del panel (podéis verlo aquí) estuvo centrado en la vieja cuestión de ¿hasta dónde debe llegar la administración pública en la prestación de servicios de valor sobre los mismos conjuntos de datos que suministra para ser reutilizados?.
La preocupación, y el debate siempre que se piensa en cómo fomentar la reutilización de datos, viene de la necesidad de encontrar un equilibrio entre los servicios que debe prestar una administración a todos los ciudadanos de forma gratuita y el espacio que desea dejarse a la iniciativa privada para crear riqueza a partir de esos datos. Y en muchos casos, ese equilibrio inestable genera muchas tensiones que no benefician la innovación.

En los últimos años, he escuchado multitud argumentos, tanto desde el lado de la oferta como desde el lado de la demanda y que van desde un extremo: “las administraciones públicas sólo deben suministrar datos en crudo y ningún servicio”, hasta el contrario: “la administración debe avanzar en la cadena de valor tanto como le sea posible en la prestación de servicios a los ciudadanos”.

Mi posición en este sentido, tal y como tuve oportunidad de defender en el debate, es que trazar una línea roja que diferencie lo que debe considerarse un servicio básico de un servicio premium no es una forma práctica de abordar el tema. En su lugar, creo que deberíamos trabajar en enunciar los incentivos mínimos que son imprescindibles para que pueda producirse innovación y por tanto creación de riqueza basada en datos abiertos.


Photo by: Rodion Kutsaev
Por ello aproveché el panel para lanzar la siguiente idea como punto de partida para enunciar de forma sencilla las mínimas condiciones que necesita un reutilizador para crear servicios de valor:

“la administración pública debería suministrar los datasets en unas condiciones tales que un reutilizador pueda reproducir el mismo servicio que se proporciona de forma gratuita”

Sencillamente porque en muchos casos la creación de valor parte de ese mínimo, esto es, de mejorar en algún aspecto un servicio que ya existe. Si no es posible reproducir lo gratuito porque los datos se liberan con algo de retraso o se liberan menos datos o con peor calidad, en muchos casos no será posible innovar para aportar nada nuevo al mercado.

Creo que esta forma de plantear la cuestión puede ayudarnos a avanzar en el debate, así que espero que sirva para que podamos mejorar la sentencia entre toda la comunidad, o quizá refutarla en caso de que demostremos que se trata de un principio equivocado.

martes, marzo 15, 2016

Abramos más conjuntos de datos, porque ¿qué puede salir mal?

Nota: Este artículo lo escribí para el blog de la International Data Conference 2016. Podéis acceder al artículo original publicado el 16 de Febrero de 2016 en español Abramos más conjuntos de datos, ¿qué puede salir mal? y en inglés: Let’s open more datasets. What could go wrong?
En las conversaciones entre miembros de la comunidad de datos abiertos, en especial por parte de los responsables de proveer datos, es frecuente escuchar frases como “es necesario estimular la demanda de datos abiertos”, “no conseguimos llegar a los reutilizadores”, “sería interesante que los proveedores de datos y los reutilizadores hablasen más”. Estoy seguro de que habéis oído frases por el estilo en numerosas ocasiones.

Esta inquietud seguramente no es ajena a los organizadores del IODC, quienes deben ser conscientes de que las ediciones anteriores del evento han estado muy centradas en lo que suele llamarse el “lado de la oferta”, esto es en las organizaciones públicas encargadas de custodiar y proveer conjuntos de datos abiertos. Lo cierto es que en España, quizá por ser el Ministerio de Industria el encargado de promover las políticas de datos abiertos, siempre se ha fomentado que las empresas reutilizadoras hayan estado muy presentes en los eventos sobre datos abiertos. Y seguro que esto se notará en el programa de esta cuarta edición del IODC en Octubre.

Sin embargo, lo que me gustaría en este post es contaros un secreto que puede ayudar a entender por qué aparentemente no existe esa anhelada demanda de datos abiertos: Resulta que para las empresas reutilizadoras con frecuencia es más productivo obtener los datos de la web que utilizar portales de datos abiertos. Y es que, por desgracia, las tecnologías para la extracción de datos de documentos han avanzado en los últimos años con mucha mayor velocidad que la cantidad de conjuntos de datos en los portales.
 Y aunque no nos guste y sea muy poco eficiente, actualmente es el único camino posible en muchos sectores para que las empresas puedan generar valor a partir de datos. En otros sectores, directamente al no haber datos publicados ni en documentos ni en conjuntos de datos, no hay demanda que se pueda estimular. Las empresas, en especial las pequeñas, sobreviven con el valor que pueden crear y vender hoy, no de las promesas futuras.

Si fueseis una empresa, ¿dónde pondríais vosotros los recursos? ¿en una librería open source para mejorar un algoritmo de extracción de datos de pdfs o en participar en discusiones circulares acerca de la mejor forma de abrir datos?

A mí, como parte del “lado de la demanda”, me gustaría que el IODC 2016 fuese un punto de inflexión, no tanto para definir más estándares, más índices y más políticas y leyes, sino para obtener un compromiso de publicación de más conjuntos de datos útiles.

Si realmente se pretende fomentar la innovación y la creación de valor a partir de los datos abiertos propongo que se inunden los portales de conjuntos de datos útiles. ¿Qué puede salir mal? En realidad muchos de esos datos ya están dentro de documentos publicados en la web y se está desperdiciando mucho esfuerzo en extraerlos y limpiarlos cuando podría dedicarse a crear valor.